2014-09-03 44 views
5

我有一个词,根据这一点,我想找出文本是否与该词相关或不使用python和nltk是否有可能?Word和文本关系使用Python和NLP

例如我有一个词叫做“phosphorous”。我想查明一下特定的文本文件是与这个词有关还是不是

我不能在nltk中使用bag的单词,因为我只有一个单词而没有训练数据。

有什么建议吗?

在此先感谢。

回答

5

不是没有语料库,没有。

这样看待:能不能问一个真正认识日本人的东西(假设你不懂日语的话),能否告诉你是否与部屋に入った时电子をつけました有关;如果你这样做,试试“svjetlo”和“Kad jeušaou sobu,upalio je lampu”)。如果你不能,你如何期待一台电脑来做到这一点?

而另一个实验 - 你能否成为一个聪明的人,给了我一种算法,通过这个算法,你可以教导非说英语的人“轻”与“当他进入房间时,他打开了灯“?再次,不。除非明显限制“相关”(例如“包含”)的含义,否则您需要培训数据。

+0

This!人类的大脑别无选择,只能与数据匹配,为了识别或理解事物,它必须找到模式或不规则性。在Amadans的例子中,我只能猜测'upalio je lampu'与'灯'有关,因为我认识到'灯'(模式),并且已经学会了灯(训练数据)。现在我喜欢灯甚至更多 – xvdiff 2014-09-03 05:48:43

2

您可以使用NLTK WordNet中的其他文字来计算这个词和词之间的路径相似性分数,并估计基于该得分启发式:

from nltk.corpus import wordnet as wn hit = wn.synset('hit.v.01') slap = wn.synset('slap.v.01') wn.path_similarity(hit, slap)

你可以找到更多NLTK共发现使用示例: http://www.nltk.org/howto/wordnet.html

+0

这将需要一些实验和调整启发式,但如果你什么都没有,它可能是值得一试! – arturomp 2014-09-03 15:42:28