我正在写一段java软件,它必须对以UTF-8编码的两个文档的相似度做出最终判断。严格文件相似度的文本相似度函数
这两个文件很可能是相同的,或者彼此略有不同,因为它们具有许多共同的特征,如日期,位置,创建者等等,但是他们的文本是决定它们是否真的如此。
我期望这两个文件的文本要么非常相似,要么根本不相关,所以我可以对设置相似性的阈值相当严格。例如,我可以说,只有当他们有90%的词汇是共同的时候,这两个文档才是相似的,但我希望有更强大的东西,这对短期和长期的文本都有效。
概括起来,我有:
- 两个文件,要么非常相似或不相似的,而是:
- 它更可能为两个文件比不
- 相似文件既可以是长(某些段落)和短期(几个句子)
我已经与simmetrics,其中有一个大阵的字符串匹配功能的尝试,但我最INTERES提出了可能使用的算法的建议。
可能的候选人我是:
- 莱文斯坦:它的输出更加显著为短文本
- 重叠系数:也许吧,但它会为不同lenght的文件歧视呢?
同样考虑到两个文本只有当它们完全相同时才会工作得很好,因为我希望只有几个词不同的文档才能通过相似性测试。
你几乎总是会比较两个文件,还是你有N个文件,你想在它们之间做两两相似性比较? – polygenelubricants 2010-02-25 14:22:53
我有N个文档,N非常低(1-4),我想将它们与一个文档(我们称之为“原始文档”)逐一比较 – 2010-02-25 14:39:12