2014-04-24 31 views
3

我正在研究一个项目,需要一个工具或API以检测大文本中的句子片段。有很多解决方案,例如OpenNLP用于检测给定文件中的句子。但是,我找不到任何明确的解决方案来找到不属于任何语法正确句子的单词,短语或事件字符组合。如何自动检测文本文件中的句子片段

任何帮助将不胜感激。

感谢,

Lorderon

回答

1

你可以使用正克作为一个变通:

假设你有一个大的集合与参考实际句子的文本。您可以提取1,2,3,4,5或更多单词的所有序列,然后在文本中再次检查文本中的片段是否以n-gram形式存在。

您可以直接从谷歌:http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.html下载n-grams,但您可能需要大量流量。

你也可以自己算的n-gram在这种情况下,你可以把维基百科的分析数据集从我的网站: http://glm.rene-pickhardt.de/data/https://github.com/renepickhardt/generalized-language-modeling-toolkit以自己创建的n-gram的源代码(或任何其他NGRAM工具包像srilm,kylm,opengrm,...)

+0

嗨雷内。感谢您的回复。我不太确定n-gram是否会帮助我。你如何确定5克甚至3克有时不是单句?我只是想弄明白,因为我不是一个计算语言学家伙。 另外,当我有大量的文本数据时,如何检查误报是否不大。 – Lorderon