TF-IDF能检查源程序抄袭吗? (转载)# DataSciences - 数据科学
s*w
1 楼
【 以下文字转载自 Programming 讨论区 】
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢!
发信人: somehow (修身健体), 信区: Programming
标 题: TF-IDF能检查源程序抄袭吗?
发信站: BBS 未名空间站 (Sat Feb 23 11:22:04 2019, 美东)
我的理解它把所有的单词列出来,然后看出现的频率。
对于论文我觉得可行,大部分是真正的单词。
但源代码的问题是变量名是自己定义的,每人的变量名很可能都不一样,会形成噪音吧?
函数名也是同样的问题,如果是自己写的函数,这名字也可以是各人的都不一样。
如果区分系统的还是自己的函数?
不是很懂,请大家讲讲,谢谢!