Redian新闻
>
TF-IDF能检查源程序抄袭吗? (转载)
avatar
TF-IDF能检查源程序抄袭吗? (转载)# DataSciences - 数据科学
s*w
1
【 以下文字转载自 Programming 讨论区 】
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢!
avatar
s*w
2
【 以下文字转载自 Programming 讨论区 】
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢!
avatar
n*3
3
possible,
but you need to build hash table to two "same variable" with different names
(on purpose).

吧?

【在 s*****w 的大作中提到】
: 【 以下文字转载自 Programming 讨论区 】
: 发信人: somehow (修身健体), 信区: Programming
: 标 题: TF-IDF能检查源程序抄袭吗?
: 发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
: 我的理解它把所有的单词列出来,然后看出现的频率。
: 对于论文我觉得可行,大部分是真正的单词。
: 但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
: 函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
: 如果区分系统的还是自己的函数?
: 不是很懂,请大家讲讲,谢谢!

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。