2016-10-22 85 views
0

我正在为2个字符串进行抄袭检测,为此我使用“Levenshtein距离算法”查找抄袭百分比和“tf idf”来查找关键字。但是现在我遇到了突出显示文本类似文本的问题,我正在考虑使用关键字作为种子来形成簇并突出显示该簇,但似乎很多工作。任何人都可以指导我如何去做,或者任何其他方式。请帮助我完成我的大学项目。tf-idf的实现

+1

这甚至还没有接近余弦相似性和tf-idf。一次有一个问题。 – Paparazzi

+0

我知道那不是余弦相似性和tf-idf,我目前正在使用这个来找到百分比,并且正在学习余弦相似度来替换它。 –

回答

0

我使用LCS获得公共子(我知道它并不完美),并使用@Mithgroth高亮这些子

1

假设你有你自己的方式找到文本类似的话,你可以添加你周围要标记的字跨度标签,给他们的属性,以及CSS类设置为背景 - 颜色:黄色;

我假设你有一个foreach评估来检查文本中的每个单词。

foreach (word in words) 
{ 
    if (*word is similar*) 
    { 
     word = "<span class='highlight'>" + word + "</span>"; 
    } 
} 

,并在你的HTML/CSS

.highlight 
{ 
    background-color: yellow; 
} 
+0

感谢您的帮助,它帮助我突出显示文本的问题。 –