将序列文件转换为向量

我正试图实施naïvebayes算法来对mahout中的tweet和facebook数据进行情感分析。我在文本文件中提供了这些推文和facebook数据。我使用的命令转换这些文件中，以序列文件将序列文件转换为向量

仓/亨利马乌seqdirectory -i /用户/ hadoopUser /样品/输入-o /用户/ hadoopUser /样品/ seqoutput

，然后我试图转换到载体序列文件，为了给输入用命令亨利马乌

仓/亨利马乌seq2sparse -i /用户/ hadoopUser /样品/ seqoutput -o /用户/ hadoopUser/vectoroutput -OW -a org.apache。 lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq

这是将整个文档转换为到矢量，但我想将每个句子转换为矢量，因为我不想对文档进行分类。我想分类文件中的评论。任何人都可以帮我解决这个问题吗？

来源

2013-03-18 DOK

你应该有一个CSV文件与鸣叫数据权利？我正在处理这个完全相同的问题。我做了什么（我不知道它是否工作，因为我甚至不知道如何解释集群输出，它只是一堆数字和单词）我使用Mahout的SequenceWriter将我的CSV文件的每一列写入序列文件类。然后在该序列文件上使用seq2sparse，就像正常一样。

来源

2013-07-04 14:21:17 DickFeynman

我不是100％确定，但主要问题是，mahout会将此文件看作一个键/值。您需要为每行添加其他ID，例如md5哈希。所以CSV格式将是：

positive bf9373d6d85959ec755eb8ac5ba0ae77 This movie is a real masterpiece

来源

2014-01-11 16:28:57 elkoo

将序列文件转换为向量

回答

相关问题