2013-05-14 47 views
2

我已经搜索,但没有找到我想要的,它是:提取一种语言形式的wiktionary最好的方法是什么?

提取所有意大利语单词,词源和词类......包括复数形式的单词(amico,amichi)和wiktionary 。我想将它作为纯文本(而不是blob)放入CSV(可能太大)或MySQL数据库中。

我希望每个意大利语单词的英文重要记录。

mwdumper也不断崩溃。

任何建议将受到欢迎!

回答

2

我创建了一个小型Java程序,它从en.wiktionary XML转储here中提取词性(动词,nound,adjective,adn等),它使用TSV,但可以很容易地进行调整。

+0

Jackopo,我试图编译它,并得到这个错误:POSfromDump.java:20:错误:类GeneraDatabasePOS是公共的,应在名为GeneraDatabasePOS.java文件中声明 公共类GeneraDatabasePOS { (抱歉,我从来没有编译java之前) – esponapule 2013-05-14 23:40:26

+0

您必须将其保存在一个名为Class的文件中,即GeneraDatabasePOS.java。您还必须更改包含文件路径的代码行。 – Jacopofar 2013-05-15 07:43:52

+0

你也必须把它放到一个名为“generazione”的文件夹中,并用'java generazione.GeneraDatabasePOS'运行它# – Jacopofar 2013-05-15 07:49:34

相关问题