数组相似字符串比方说,我有不同的URL集合中的数组:集团在Node.js的
var source = ['www.xyz.com/Product/1', 'www.xyz.com/Product/3', 'www.xyz.com/Category/1', 'somestring']
什么会遍历数组,并将相似串入一个好办法单独阵列? 从例子中的所需的输出以上将是:
var output = [
['www.xyz.com/Product/1', 'www.xyz.com/Product/3'],
['www.xyz.com/Category/1'],
['somestring']
];
条件
- 内
source
所有的数据项可以是随机串 - 逻辑必须能够比较和组大约100' 000件物品在有意义的时间
我找到了string-similarity library,它提供了将一个字符串与字符串集合进行比较的可能性。一种方法是迭代源代码,将每个项目与源集合进行比较,并应用规则对具有相似分数的项目进行分组。不过我想这样做效率很低。
有人可以建议我一种有效的方法来完成我所需要的吗?
所以在这个例子中有一个清晰的模式,但它似乎是你问关于可能是任何东西的字符串?那是对的吗? – aw04
@ aw04是的,没有明确的模式可以是任何字符串。正如我写道:源内的所有项目可以是随机字符串 – enyce12
好运然后:) – aw04