2009-08-22 58 views
1

我正在做一个java项目,我必须处理一个wikipedia转储文件。我正在寻找一个图书馆来提取维基百科文章中的关键词...基本上我想读取维基百科xml转储中的每个标签页,并将其与主题和类别列表进行比较,如果它是正确的,选择它并添加到我的结果。我对阅读转储或撰写维基百科结果不感兴趣,只想了解任何让我按照维基百科文章的标题和文本中的主题搜索的图书馆...例如...如果输入是“狗”我想要关于狗的维基百科文章,如果有可能在狗类别下的任何页面。按主题搜索并从维基百科中提取关键字

如果一个用于通用目的而不是为维基百科指定的库不重要。我需要把wikitext作为参数,并收到关键字列表,包括类别...我发现一些维基百科库可以正常工作,如Wikipedia-MinerJava Wikipedia Library,但首先我需要安装mysql,我想分析该文本没有保存到数据库中。

任何形式的帮助或建议都很受欢迎。 :)

回答