查找相关文本（两个文本之间的关联）

我试图通过关联在数据库中找到类似的文章。因此，我将文本分割成单词列，然后删除经常使用的单词（文章，代词等），然后将两个文本与皮尔森系数函数进行比较。对于某些文本是有效的，但对于其他文本则不太好（文本较大的文本具有较高的系数）。查找相关文本（两个文本之间的关联）

有人可以建议一个很好的方法来找到相关的文本？

2011-04-07 x2.

正在搜索答案，你是如何将Pearson应用于两个文本列表的？ – KillBill 2014-10-30 05:21:15

您提到的一些问题归结为文档长度和整体词频的归一化。尝试tf-idf。

2011-04-30 14:45:54 highBandWidth

回答