2012-09-06 33 views
13

先达对不起,我不是那么完美的英语...我是来自德国;)列表 - 哪一个你推荐

所以,我的一个研究项目(学士论文)我需要分析关于某些公司和品牌的推特情绪。为此,我需要编写我自己的程序/使用某种经过修改的开源代码(没有API) - 我需要了解发生的事情)。

下面你会找到我发现的一些NLP应用程序的列表。我现在的问题是你会推荐哪一种方法?哪一个不需要长时间调整代码?

例如:当我为音乐播放器> iPod <进行屏幕截图时,有人写道:“这是一个糟糕的一天,但至少我的iPod让我开心”或者更难:“这是一个糟糕的一天,但至少我的iPod弥补它“

哪个软件足够聪明,以了解专注于iPod而不是天气?

另外哪些软件是可扩展的/资源高效的(我想分析多个推文并且不想花费数千美元)?

机器学习和数据挖掘

Weka中 - 是的机器学习算法用于数据挖掘的集合。它是最流行的文本分类框架之一。它包含各种算法的实现,包括朴素贝叶斯和支持向量机(支持向量机,列于SMO下)[注:其他常用的非Java SVM实现是SVM-Light,LibSVM和SVMTorch]。一个相关的项目是Kea(关键词提取算法),一种用于从文本文档中提取关键词的算法。

Apache Lucene Mahout - 一个孵化器项目,用于在Hadoop map-reduce框架之上创建高度可扩展的通用机器学习算法分布式实现。

NLP工具

LingPipe - (不是技术上的“开源,见下文)别名 - 我的Lingpipe是Java工具对文本的语言处理,包括实体提取,词性标注一套房(POS ),聚类,分类等...它是工业中最成熟和最广泛使用的开源NLP工具包之一。它以速度,稳定性和可扩展性而闻名。其最好的功能之一是广泛收集精心编写的教程,以帮助您入门。他们有一系列的竞争链接,包括学术和工业工具。一定要看看他们的博客。 LingPipe是在免版税的商业许可下发布的,其中包含源代码,但它在技术上不是“开源”。

OpenNLP - 举办各种基于java的NLP工具,执行判决检测,标记化,部分词性标注,组块和语法分析,命名实体检测,并使用Maxent模型机器学习联合引用分析包。

斯坦福分析器和词性标注(POS)标记 - 用于斯坦福NLP组的句子分析和词性标注的Java包。它具有概率自然语言分析器的实现,高度优化的PCFG和词法化的依赖分析器,以及词汇化的PCFG分析器。它有一个完整的GNU GPL许可证。

OpenFST - 用于处理加权有限状态自动机的包。这些经常被用来表示一个概率模型。它们用于为语音识别,OCR纠错,机器翻译和各种其他任务建模文本。该图书馆由谷歌研究和纽约大学的贡献者开发。这是一个C++库,其目的是快速和可扩展。

NTLK - 自然语言工具包是教学和研究分类,聚类,词性标注和解析,以及更多的工具。它包含一组用于实验的教程和数据集。它由墨尔本大学的Steven Bird撰写。

Opinion Finder - 一个系统,执行主观性分析,自动识别意见,情绪,猜测和其他私人状态何时出现在文本中。具体而言,OpinionFinder旨在确定主观句子和标记在这些句子的主观性的各个方面,包括主体和词语包括在表达的正或负情绪短语的源(支架)。

Tawlk/osae - 一个用于社会文本情感分类的python库。最终目标是建立一个简单的“正常工作”的图书馆。它应该有一个容易进入的障碍并被彻底记录。我们已经使用禁用词与收集negwords.txt和poswords.txt

GATE鸣叫过滤来达到的最佳精度 - GATE是15岁以上,是涉及人类语言所有类型的计算任务的运行。 GATE擅长对各种形状和尺寸的文本进行分析。从大公司到小创业公司,从€多万美元的研究财团本科项目,我们的用户社区是全球最大和最多样化的任何这种类型的系统,并在所有的传播,但continents1之一。

textir - 一套文本和情感挖掘工具。这包括“mnlm”功能,对稀疏多项Logistic回归,“请”,一个简洁的偏最小二乘法程序,和“主题”功能,在潜在主题模型有效估计和尺寸选择。

NLP工具包 - 朱莉实验室这里提供了一个全面的NLP工具套件进行语义搜索,信息提取和文本挖掘的应用目的。我们大部分不断扩展的工具套件都基于机器学习方法,因此独立于域和语言。

...

附注:您是否会推荐Twitter流媒体或获取API?

至于我,我Python和Java的粉丝;)

非常感谢您的帮助!

回答

3

我不知道我能有多大帮助,但我以前用手工卷制的NLP工作。想到几个问题 - 并非所有的产品都是语言不可知的(人类语言,而不是计算机语言)。如果您打算分析德语推文,选择的产品能够处理德语是非常重要的。很明显,我知道,但容易忘记。然后就是这样的事实,它是缩写和首字母缩略词的叽叽喳喳,并且语言结构受到字符限制的限制,这意味着语法并不总是匹配预期的语言结构。

在英语中,如果您需要编写自己的代码,可以简化从句子中拉名词。专有名词有首字母大写,一串这样的词(可能包括“of”)是一个名词短语的例子。以“a/an/my/his/hers/the/this/these/those”为前缀的词将成为形容词或名词。不幸的是,后来变得更加困难。

有帮助识别复数的规则,但也有很多例外。我在这里谈论的是英语,当然,我说得很差的德语并不能帮助我理解语法恐怕。