2013-03-18 129 views
1

我正试图实施naïvebayes算法来对mahout中的tweet和facebook数据进行情感分析。我在文本文件中提供了这些推文和facebook数据。我使用的命令转换这些文件中,以序列文件将序列文件转换为向量

仓/亨利马乌seqdirectory -i /用户/ hadoopUser /样品/输入-o /用户/ hadoopUser /样品/ seqoutput

,然后我试图转换到载体序列文件,为了给输入用命令亨利马乌

仓/亨利马乌seq2sparse -i /用户/ hadoopUser /样品/ seqoutput -o /用户/ hadoopUser/vectoroutput -OW -a org.apache。 lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq

这是将整个文档转换为到矢量,但我想将每个句子转换为矢量,因为我不想对文档进行分类。我想分类文件中的评论。任何人都可以帮我解决这个问题吗?

回答

0

你应该有一个CSV文件与鸣叫数据权利?我正在处理这个完全相同的问题。我做了什么(我不知道它是否工作,因为我甚至不知道如何解释集群输出,它只是一堆数字和单词)我使用Mahout的SequenceWriter将我的CSV文件的每一列写入序列文件类。然后在该序列文件上使用seq2sparse,就像正常一样。

0

我不是100%确定,但主要问题是,mahout会将此文件看作一个键/值。 您需要为每行添加其他ID,例如md5哈希。所以CSV格式将是:

positive bf9373d6d85959ec755eb8ac5ba0ae77 This movie is a real masterpiece