2017-10-06 420 views

回答

2

我一直在寻找这样的东西。只是为了“通用”(因此不是非常有用的)NLU后端。到目前为止,我发现的唯一一件事是一个训练有素的模型,包含9个新闻类别(不是非常通用的)。请参阅此处的博客文章:http://eric-yuan.me/ner_1/

如果您可以选择切换NER,那么spaCy默认情况下会提供训练有素的模型。它的可视化前端可以通过谷歌“displacy”找到

如果您发现任何其他问题,请告诉我!

编辑:花了一天看着这个,我想我已经找到了你在追求什么。如果你去https://github.com/mit-nlp/MITIE/releases那里,你会发现MITIE自己的NER模型在维基百科,Freebase等训练。实际的训练数据集也在那里。他们的github页面上的README提供了关于如何使用预先训练的模型的示例。您还可以调查examples文件夹中的ner.py文件,以了解如何在Python代码中使用预先训练好的模型。

+0

非常感谢。如果我找到其他有用的数据集,我会在这里发表评论。 –

+0

我尝试通过聚集手套向量并使用名称标记每个群集来创建具有标记实体的自己的数据集。你认为这是一个正确的方法吗? –

+0

听起来很像,但我还没有玩过这个东西,但还没有确定。而且现在看起来我现在不会再回到这里了,因为我已经被分配到另一个项目了。你暂时独立。对不起:( –