2013-05-03 55 views
0

我有一个使用NLTK的工作情感分析程序,它从放置在本地机器中的.txt文件读取文本。现在我想阅读放置在Hadoop HDFS中的txt文件并执行相同的情感分析。如何将NLTK与Hadoop HDFS集成?

我该如何做到这一点?

任何关于这个主题的指针将不胜感激!

回答

0

因此,除非nltk能够识别HDFS,否则这将不是完全可能的。但是像NLTK这样的大多数程序将允许您直接将数据传递到程序中。假设是这种情况,你可以使用我在其他答案中建议的,How to run external program within mapper or reducer giving HDFS files as input and storing output files in HDFS?。您基本上编写了一个小型的Java适配器,用于打开HDFS文件的输入流并将其传递给您想要运行的程序。

如果这听起来像是太麻烦了,或者出于某种原因不可能出现这种情况,那么您总是可以使用HDFS get将文件放入本地地址。