2016-01-20 41 views
0

亨利马乌不同:rowsimilarity过程的输出是在下面所述的步骤每次运行不同(保持所有输入相同的所有运行)输出是对于每次运行

第一步:seq2sparse(创建从文本矢量) 步骤2:ROWID(生成TFIDF载体) 步骤3:rowsimilarity(计算向量之间的相似度) 步骤4:seqdumper(二元载体为文本)

UPDATE:

感谢Pferrel的答复,
请建议我们如何可以指定“种子值”

,我现在用的命令是: $ {} MAHOUT_HOME /斌/亨利马乌seq2sparse -i $ {数据} /序列数据-o $ {数据} /矢量-n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10

$ {MAHOUT_HOME}/bin/mahout rowid -i $ {DATA}/vectors/tfidf-vectors/part-r -00000 -o $ {DATA}/matrix

$ {MAHOUT_HOME}/bin/mahout rowsimilarity -i $ {DATA}/matrix/matrix -o $ {DATA}/similarity --similarityClassname SIMILARITY_COSINE -m 100 -ess -ow

回答

0

数据是随机下采样的,因此如果需要可重复性,请将种子设置为固定值。您还可以设置缩减采样以吸引大量项目来禁用它,但请注意,这会使其运行速度变慢,速度将接近O(n^2)。

+0

嗨pferrel谢谢你的回答,请找到我的更新问题,并建议如何设置“种子价值”(我们使用Mahout 0.9版本) – Satendrakv

+0

种子被用作随机抽样的“种子”,是仅在需要完全可重现的结果时才使用。否则基于随机抽样的结果会有一些细微的变化。 项目相似性仅用于协作过滤的原因,并对数据进行降采样以保持O(n)处的计算结果,并且在某点之后数据的收益递减。顺便说一句,有一个新的Spark版本,在Mahout 0.11.x中运行速度提高了10倍,这里http://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html – pferrel

+0

对于协同过滤对数似然比(LLR)在我尝试过的每一种情况下,都比Cosine做得更好。 – pferrel

相关问题