2011-01-24 113 views
2

现状:NLP:语言分析技术和算法

我希望执行一个给定文本的深层次分析这将意味着:

  1. 能够提取关键词和分配的重要性级别基于上下文使用。
  2. 能够根据表达的情绪得出结论。
  3. 能够在教育水平暗示(虽然单词这确实有点事,但更自动化)
  4. 能够混合和搭配,短语,并找出一定的沟通模式
  5. 能够获取大量的含义出来的它,因此它可以被量化并且可以被机器应答处理。

问:要采用这种什么样的算法和技术需要

有没有一个软件可以帮助我做到这一点?

回答

3

当你想知道如何做到这一点时,请联系DARPA,CIA,FBI以及所有其他美国情报机构。像这些项目的合同是目前研究项目,价值数百万美元的研究经费。 ;)

这就是说你需要分层处理它并分析每一层。对于第2项和第3项,您会发现在n元组上训练支持向量机(尝试,3)会有所帮助。对于1和4,你需要更深入的分析。使用像NLTK这样的工具,或其他许多解析器之一,找到句子和相关单词中的主题词。还可以使用WordNet(来自普林斯顿) 来找出最常用的感觉并将其作为关键词。

5是极具挑战性,我想聪明的利用这些数据上面可以给你想要的东西,但你需要使用所有的语法知识和编程知识,它仍然是非常粗糙颗粒。

1

听起来你可能会开放一些实验,在这种情况下,工具包方法可能是最好的?如果是这样,请查看用于Python的NLTK自然语言工具包。根据Apache许可协议开放源代码,并且有一些关于它的优秀书籍(包括来自O'Reilly的一本书,它也在创作共用许可证下在线发布)。

+0

而正如cpfohl所说,你要做的事情很难。有了一些领域限制和实验,你可能会做一些有用的事情。 – winwaed 2011-01-24 15:55:40