2016-08-13 61 views
1

假设我有一个非常长的文本,我想提取一定的长度的上下文围绕一个特定的单词。例如,在下面的文本中,我想提取围绕单词warrior的8个单词。提取句子中的单词上下文

........

........

...死了。他是一个非常勇敢的战士,争取对赔率自由...

........

........

在这种情况下,结果将是

他是一个非常勇敢的战士,争取自由

请注意我是如何放弃这个词的,因为我更喜欢从整句开始,并且如何提取不止8个单词,因为fight for freedom争取更有意义。

有没有任何算法,或在这个领域进行的研究,我可以遵循?我应该如何着手解决这个问题。

回答

0
  1. 您可以使用RegEx获取包含您要查找的单词的整个句子。
  2. 然后使用信息提取算法找到更方便的8个单词。

我发现两个

对于正则表达式一些Python实现看here

以及抽取算法外观here

希望这将帮助你

+0

注意,对于那种事在链接中显示,parsey mcparseface往往比nltk做得好一点 – thang