2011-10-27 40 views
0

我使用了lucene的ExtractWikipedia工具来提取最新英语维基页面的bz2转储。生成的.txt文件仍然具有维基百科标记语言。是否有一个工具或python脚本可以在目录上运行,以仅解析目录中每个文件的内容? (即:修改文件,使他们只包含内容,没有标记)从目录中的文件解析出维基百科标记

另外,是否有一个Java库或包可以实现这一目标?我希望将它集成到Lucene类中,ExtractWikipedia。

回答

0

你可以试试这个一wikiprep这是一个现成的Perl脚本,(你需要安装perl第一)

  • 删除wiki标记语言的语言
  • 产生heirarchial类别
  • 删除重定向
  • 产生这是很容易的XML格式解析

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

运行所有wikipedia dumb 可能需要几个小时,并且可能需要大约6GB内存的大内存