1
假设我有一个非常长的文本,我想提取一定的长度的上下文围绕一个特定的单词。例如,在下面的文本中,我想提取围绕单词warrior的8个单词。提取句子中的单词上下文
........
........
...死了。他是一个非常勇敢的战士,争取对赔率自由...
........
........
在这种情况下,结果将是
他是一个非常勇敢的战士,争取自由
请注意我是如何放弃这个词的,因为我更喜欢从整句开始,并且如何提取不止8个单词,因为fight for freedom
比为争取更有意义。
有没有任何算法,或在这个领域进行的研究,我可以遵循?我应该如何着手解决这个问题。
注意,对于那种事在链接中显示,parsey mcparseface往往比nltk做得好一点 – thang