2011-04-07 103 views
0

我试图通过关联在数据库中找到类似的文章。因此,我将文本分割成单词列,然后删除经常使用的单词(文章,代词等),然后将两个文本与皮尔森系数函数进行比较。对于某些文本是有效的,但对于其他文本则不太好(文本较大的文本具有较高的系数)。查找相关文本(两个文本之间的关联)

有人可以建议一个很好的方法来找到相关的文本?

+0

正在搜索答案,你是如何将Pearson应用于两个文本列表的? – KillBill 2014-10-30 05:21:15

回答

0

您提到的一些问题归结为文档长度和整体词频的归一化。尝试tf-idf