2011-04-18 67 views
2

我有来自OpenNLP的POS标记输入...我需要使用这些与WordNet ...但wordnet只使用4个标签 - 名词,动词,形容词,副词...在哪里OpenNLP生成标签基于 Penn treebank tagset。我需要将它们转换为与wordnet兼容的标签...我在网站上发现了 this - 但它的所有python ..我需要java从树库标签转换为Java中的wordnet兼容标签?

同意我可以自己写一个简单的函数来重命名这些标签..但是如何处理像DT,PP,PDT,POS,MD等其他标签...

回答

1

有关您想要用WordNet关联做什么的更多信息可能会有所帮助,但我的第一个猜测是您想要放弃不能干净地映射到WordNet类别的词类。

例如,考虑DT(确定器)。你是否希望在WordNet的'the'和'an'之间建立关系?同样,在WordNet中可能有PP(介词)的有用关系,但我怀疑你更有可能找到不同名词或动词之间的有用关系,而不是封闭类词之间的关系。

我的建议是首先将每个TreeBank词性标记映射到一个WordNet类,或者将那些没有明显映射的词类映射到'null'(可以可能在某个地方找到了这样的映射,但只有36个标签,这对您自己来说可能会很容易)。

对于封闭的单词,您可能决定使用另一个关系元数据源,但这可能取决于应用程序的最终目标。

+0

我说过这一切都在我的问题..当然,我可以手动映射,然后编写一个函数...但不会影响我的应用程序?我正在尝试从wordnet中提取同义词?对于在映射过程中使用空标签的单词我会做什么操作?我将如何处理这些非wordnet标签?这是主要的问题... – 2011-04-18 20:10:49

+1

你的应用程序是什么?从WordNet中提取同义词通常不是最终目标。例如,您想为“an”找到什么样的映射?我没有任何东西可以接近WordNet的专家,但我不希望找到“an”,“the”,“of”等反义词的同义词。同义词和反义词的概念没有多大意义为封闭的话语。 – AaronD 2011-04-18 20:18:07

+0

提取文本摘要的synsets是我的应用程序.. – 2011-04-19 03:31:37