2012-03-13 41 views
0

如果我使用基于相似性的算法(例如pearson相关分数)来比较两个特征向量 并且我想知道那些在特征集中非常不相似的维度/特征字段,则什么是算法使用?我使用亨利马乌这是Java在Mahout中查找特征向量中的不同维度

+0

这是不是一个真正的编程问题,是吗? – specialscope 2012-03-13 15:57:06

+0

我使用亨利马乌如果你想在这里得到的反馈是在Java中 – seahorse 2012-03-13 16:01:19

+0

机器学习库,你应该提及的是,你的问题,也许张贴您正在使用的为好一段代码。 – specialscope 2012-03-13 16:04:40

回答

1

好机器学习库,它也只是其中两个向量最不同的尺寸 - 在这种载体的价值观的维度中的差的绝对值为最大。这完全是你的意思,还是你在寻找一些微妙的东西?

+0

好了说,我有FV1,FV2,FV3,即Fv4和FV5作为应该是很“相似”的特征向量。现在对于特征向量2 = fv2(比如说),我需要找出哪些维度与别的维度相比较尴尬或者具有很大的不一致性差异。为此,我想比较fv2和所有其他特征向量,然后提出答案。因此,我需要计算所有向量之间的平均绝对差异还是存在一些更好的统计量? – seahorse 2012-03-13 16:23:40

+1

与平均数的绝对差异是合理的;我可能会建议一些更像z值的标准化值 - 只是标准偏差的数值。 – 2012-03-13 16:37:36