基于后面MOSS(软件相似的度量)的学术文章,我一直在抄袭检测引擎的实现设计抄袭检测引擎噪声滤波器在Ruby中
链接MOSS
对于为像C/C++/Java这样的语言设计噪声滤波器,我有一些决定。
与检测剽窃有关的关键词还是应该删除? 相同语言的源文件被绑定为共享相同的一组关键字。本文不讨论如何处理它们。
如何处理标识符? 使用单个字符'V'替换所有关键字使得与变量名称无关的匹配是有意义的。
如何处理软件包导入和库包括?
空白区,行政区和标点符号必须清除。
我想知道做完所有的操作后,源文件将只是一堆'V'和其他一些乱码文本。
噪声滤波器应该执行哪些操作?
关于处理噪音的最佳方法的见解和意见?
为什么去掉标识和意见吗?如果您检查两个具有相同源注释或局部变量名称的文档,是不是很可能面临抄袭? – 2011-12-17 12:26:37
标识符的名称可以很容易地更改,以欺骗系统,以免剽窃。所以我们需要独立处理它们的名字。意见通常由免责声明和许可条款组成,因此应予以忽略。 – 2011-12-17 12:28:48
我明白。尽管如此,我认为单独检查本地变量名称可能会增加检测plagiats的机会。你当然不应该依赖于这种方式,因为没有匹配的名字会导致消极的结果。 – 2011-12-17 12:38:02