我可以使用数百个JSON字符串。其中每个包含15-20个字的数组,按照一定的重量排序。如果值得注意的话,这个重量是这些词在一些文本块中找到的次数。找出像这样构造的单词阵列之间的相似性的最佳方式是什么?比较字符串数组的相似性
我头脑中的第一个想法是创建所有单词的数值散列,并基本比较这些值以确定相似性。我并不是非常成功,因为非常相似的字符串所产生的散列值并不是非常接近。经过一些关于字符串比较算法的研究,我来到Stackoverflow希望得到更多的指导。在此先感谢您,如果您需要更详细的问题,请告诉我。
编辑1:澄清我想做的事情:我想根据这些词中的每一个词来确定两个数组的相似程度。我还想考虑每个单词在每个数组中的重量。例如:
var array1 = [{"word":"hill","count":5},{"word":"head","count":5}];
var array2 = [{"word":"valley","count":7},{"word":"head","count":5}];
var array3 = [{"word":"head", "count": 6}, {"word": "valley", "count": 5}];
var array4 = [{"word": "valley", "count": 7}, {"word":"head", "count": 5}];
在该示例中,阵列4和阵列2比阵列2和阵列3更相似的,因为,尽管具有相同的话,其重量为两者相同的在阵列4和2.我希望这可以更容易理解。提前致谢。
所以,你必须与每个Nm的话ñ阵列,并且要确定到底是什么? –
定义相似性... –
我编辑了我的原始文章并做了一些说明。希望有助于和感谢您的兴趣。 –