输出是对于每次运行

亨利马乌不同：rowsimilarity过程的输出是在下面所述的步骤每次运行不同（保持所有输入相同的所有运行）输出是对于每次运行

第一步：seq2sparse（创建从文本矢量）步骤2：ROWID（生成TFIDF载体）步骤3：rowsimilarity（计算向量之间的相似度）步骤4：seqdumper（二元载体为文本）

UPDATE：

感谢Pferrel的答复，
请建议我们如何可以指定“种子值”

，我现在用的命令是： $ {} MAHOUT_HOME /斌/亨利马乌seq2sparse -i $ {数据} /序列数据-o $ {数据} /矢量-n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10

$ {MAHOUT_HOME}/bin/mahout rowid -i $ {DATA}/vectors/tfidf-vectors/part-r -00000 -o $ {DATA}/matrix

$ {MAHOUT_HOME}/bin/mahout rowsimilarity -i $ {DATA}/matrix/matrix -o $ {DATA}/similarity --similarityClassname SIMILARITY_COSINE -m 100 -ess -ow

来源

2016-01-20 Satendrakv

数据是随机下采样的，因此如果需要可重复性，请将种子设置为固定值。您还可以设置缩减采样以吸引大量项目来禁用它，但请注意，这会使其运行速度变慢，速度将接近O（n^2）。

来源

2016-01-21 20:21:59 pferrel

嗨pferrel谢谢你的回答，请找到我的更新问题，并建议如何设置“种子价值”（我们使用Mahout 0.9版本） – Satendrakv

种子被用作随机抽样的“种子”，是仅在需要完全可重现的结果时才使用。否则基于随机抽样的结果会有一些细微的变化。项目相似性仅用于协作过滤的原因，并对数据进行降采样以保持O（n）处的计算结果，并且在某点之后数据的收益递减。顺便说一句，有一个新的Spark版本，在Mahout 0.11.x中运行速度提高了10倍，这里http://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html – pferrel

对于协同过滤对数似然比（LLR）在我尝试过的每一种情况下，都比Cosine做得更好。 – pferrel

输出是对于每次运行

回答

相关问题