我试图用“解析 - MediaWikiDump-1.0.4”与“Wikiprep.pl”脚本一起解析XML维基百科转储。我猜这个脚本可以在ver0.3 Wiki XML Dumps中正常工作,但不能与最新的ver0.4 Dump一起使用。我收到以下错误。解析XML维基转储ver0.4刚韧
通过包无法找到对象的方法“页”,“解析:: MediaWikiDump ::网页”,wikiprep.pl线390
此外,“解析 - MediaWikiDump-1.0.4”的文件下@http://search.cpan.org/~triddle/Parse-MediaWikiDump-1.0.4/lib/Parse/MediaWikiDump/Pages.pm,我读了“LIMITATIONS Version 0.4”这个类已更新为支持来自MediaWiki实例的0.4版转储文件,但它目前不支持这些文件中提供的任何新信息。“
任何变通,会帮我去一个新的水平。
注:一个可能想知道为什么我们不能直接使用SAX或STAX解析器代替,维基百科转储是25GB加上单个文件,堆/内存问题是显而易见的。因此,上面的Perl脚本解决了这个问题,但目前我坚持这个版本问题。
非常感谢...这个信息将是非常有益的,我很感激。 – syed 2010-06-05 23:15:55