Q

从目录中的文件解析出维基百科标记

2011-10-27 40 views 0 likes

0

我使用了lucene的ExtractWikipedia工具来提取最新英语维基页面的bz2转储。生成的.txt文件仍然具有维基百科标记语言。是否有一个工具或python脚本可以在目录上运行，以仅解析目录中每个文件的内容？（即：修改文件，使他们只包含内容，没有标记）从目录中的文件解析出维基百科标记

另外，是否有一个Java库或包可以实现这一目标？我希望将它集成到Lucene类中，ExtractWikipedia。

2011-10-27 Dan Q

A

回答

0

你可以试试这个一wikiprep这是一个现成的Perl脚本，（你需要安装perl第一）

删除wiki标记语言的语言
产生heirarchial类别
删除重定向
产生这是很容易的XML格式解析

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

运行所有wikipedia dumb 可能需要几个小时，并且可能需要大约6GB内存的大内存

2011-11-01 00:14:47

相关问题