列表 - 哪一个你推荐

先达对不起，我不是那么完美的英语...我是来自德国;）列表 - 哪一个你推荐

所以，我的一个研究项目（学士论文）我需要分析关于某些公司和品牌的推特情绪。为此，我需要编写我自己的程序/使用某种经过修改的开源代码（没有API） - 我需要了解发生的事情）。

下面你会找到我发现的一些NLP应用程序的列表。我现在的问题是你会推荐哪一种方法？哪一个不需要长时间调整代码？

例如：当我为音乐播放器> iPod <进行屏幕截图时，有人写道：“这是一个糟糕的一天，但至少我的iPod让我开心”或者更难：“这是一个糟糕的一天，但至少我的iPod弥补它“

哪个软件足够聪明，以了解专注于iPod而不是天气？

另外哪些软件是可扩展的/资源高效的（我想分析多个推文并且不想花费数千美元）？

机器学习和数据挖掘

Weka中 - 是的机器学习算法用于数据挖掘的集合。它是最流行的文本分类框架之一。它包含各种算法的实现，包括朴素贝叶斯和支持向量机（支持向量机，列于SMO下）[注：其他常用的非Java SVM实现是SVM-Light，LibSVM和SVMTorch]。一个相关的项目是Kea（关键词提取算法），一种用于从文本文档中提取关键词的算法。

Apache Lucene Mahout - 一个孵化器项目，用于在Hadoop map-reduce框架之上创建高度可扩展的通用机器学习算法分布式实现。

NLP工具

LingPipe - （不是技术上的“开源，见下文）别名 - 我的Lingpipe是Java工具对文本的语言处理，包括实体提取，词性标注一套房（POS ），聚类，分类等...它是工业中最成熟和最广泛使用的开源NLP工具包之一。它以速度，稳定性和可扩展性而闻名。其最好的功能之一是广泛收集精心编写的教程，以帮助您入门。他们有一系列的竞争链接，包括学术和工业工具。一定要看看他们的博客。 LingPipe是在免版税的商业许可下发布的，其中包含源代码，但它在技术上不是“开源”。

OpenNLP - 举办各种基于java的NLP工具，执行判决检测，标记化，部分词性标注，组块和语法分析，命名实体检测，并使用Maxent模型机器学习联合引用分析包。

斯坦福分析器和词性标注（POS）标记 - 用于斯坦福NLP组的句子分析和词性标注的Java包。它具有概率自然语言分析器的实现，高度优化的PCFG和词法化的依赖分析器，以及词汇化的PCFG分析器。它有一个完整的GNU GPL许可证。

OpenFST - 用于处理加权有限状态自动机的包。这些经常被用来表示一个概率模型。它们用于为语音识别，OCR纠错，机器翻译和各种其他任务建模文本。该图书馆由谷歌研究和纽约大学的贡献者开发。这是一个C++库，其目的是快速和可扩展。

NTLK - 自然语言工具包是教学和研究分类，聚类，词性标注和解析，以及更多的工具。它包含一组用于实验的教程和数据集。它由墨尔本大学的Steven Bird撰写。

Opinion Finder - 一个系统，执行主观性分析，自动识别意见，情绪，猜测和其他私人状态何时出现在文本中。具体而言，OpinionFinder旨在确定主观句子和标记在这些句子的主观性的各个方面，包括主体和词语包括在表达的正或负情绪短语的源（支架）。

Tawlk/osae - 一个用于社会文本情感分类的python库。最终目标是建立一个简单的“正常工作”的图书馆。它应该有一个容易进入的障碍并被彻底记录。我们已经使用禁用词与收集negwords.txt和poswords.txt

GATE鸣叫过滤来达到的最佳精度 - GATE是15岁以上，是涉及人类语言所有类型的计算任务的运行。 GATE擅长对各种形状和尺寸的文本进行分析。从大公司到小创业公司，从€多万美元的研究财团本科项目，我们的用户社区是全球最大和最多样化的任何这种类型的系统，并在所有的传播，但continents1之一。

textir - 一套文本和情感挖掘工具。这包括“mnlm”功能，对稀疏多项Logistic回归，“请”，一个简洁的偏最小二乘法程序，和“主题”功能，在潜在主题模型有效估计和尺寸选择。

NLP工具包 - 朱莉实验室这里提供了一个全面的NLP工具套件进行语义搜索，信息提取和文本挖掘的应用目的。我们大部分不断扩展的工具套件都基于机器学习方法，因此独立于域和语言。

...

附注：您是否会推荐Twitter流媒体或获取API？

至于我，我Python和Java的粉丝;）

非常感谢您的帮助！

来源

2012-09-06 Chriswede

我不知道我能有多大帮助，但我以前用手工卷制的NLP工作。想到几个问题 - 并非所有的产品都是语言不可知的（人类语言，而不是计算机语言）。如果您打算分析德语推文，选择的产品能够处理德语是非常重要的。很明显，我知道，但容易忘记。然后就是这样的事实，它是缩写和首字母缩略词的叽叽喳喳，并且语言结构受到字符限制的限制，这意味着语法并不总是匹配预期的语言结构。

在英语中，如果您需要编写自己的代码，可以简化从句子中拉名词。专有名词有首字母大写，一串这样的词（可能包括“of”）是一个名词短语的例子。以“a/an/my/his/hers/the/this/these/those”为前缀的词将成为形容词或名词。不幸的是，后来变得更加困难。

有帮助识别复数的规则，但也有很多例外。我在这里谈论的是英语，当然，我说得很差的德语并不能帮助我理解语法恐怕。

来源

2012-09-07 02:29:39

列表 - 哪一个你推荐

回答

相关问题