2012-01-11 86 views
4

我一直在利用大量不同的语料库进行自然语言处理,并且我一直在寻找一个已经用Wordnet Word Senses注释的语料库。Wordnet(Word Sense Annotated)语料库

我知道这个信息可能没有一个大的语料库,因为语料库需要手动建立起来,但必须有一些事情要做。

此外,如果没有语料库存在,是否至少有一个有意义的带注释的ngram数据库(每个词的定义的时间百分比或每个词网定义的数字计数取决于如何常识的意思是)?注释为共发现

回答

8

三位著名的语料库:

+2

SemCor是迄今为止所有链接中最好的一个。看起来现在没有很多高质量的WordNet注释语料库。 – cardine 2012-01-22 08:21:20

+0

@ cardine and cyborg,对于评论抱歉,但我找不到您的联系信息。你能通过info @ panabee.com给我发电子邮件吗?根据你的NLP兴趣,我有一个你可能感兴趣的小项目。谢谢。 – Crashalot 2013-04-02 21:12:44

0

你可以使用senseval2,对于java有一个semcor格式和(jSemcor API) 也senseval3。 这两个语料库用于Word的歧义消除。