2017-08-25 27 views
2

我看到paper提供了Sense2Vec背后的想法,但是第一个创建的标准spaCy模型是怎么样的?当我从the selection of models下载类似标准“en_core_web_md”模型的东西时,它是如何创建的?有没有我可以阅读的文章或spaCy博客文章?SpaCy实际执行哪些NN模型?什么决定了他们的记忆体大小?

奖金的问题:

如何在即将到来的spaCy 2.0新车型在尺寸要小得多?

version 2 Release summary

此版本拥有全新的深度学习动力模型spaCy的恶搞,解析器和实体识别。新模型比直到现在为spaCy提供动力的线性模型要小20倍:从300 MB到仅15 MB。

在这个方向上唯一真正的参考是here发布摘要。 所有型号内存的总结可以找到here

是否提供了模型权重,并且每个调用都获得相关属性实际上是在运行时计算得出?这将解释this page

回答

2

基准测试中显示的较慢吞吐量。如果您查看模型github repo https://github.com/explosion/spacy-models/releases中的版本,则模型的每个部分都有详细信息,例如,在恶搞或解析器,说明哪些数据是被训练上,什么结果模型的精度是:

分析器:OntoNotes 5,91.5%精度

标注器:OntoNotes 5,96.9%精度

NER:OntoNotes 5,84.7%精度

字矢量:通用抓取

有关培训模型所需的代码的更多详细信息,请访问:http://spacy.io/docs/usage/training。上面链接的版本也附有源代码,但我没有检查过哪些代码。


编辑:

通过discussion following the announcement of v2.0看完后,我碰到,说明如何在新的NN模型内部工作的问题。

你可以在这里找到:https://github.com/explosion/spaCy/issues/1057

+0

很好,谢谢 - 您的编辑用品大部分信息我一直在寻找! –

相关问题