2011-09-02 77 views
1

我正在寻找更快的替代方法来使用mwdumper导入mediawiki xml转储。 我已经使用wget一次一个地下载大型文章的xml,并且有几百个我需要导入。导入一次一个时间太长有没有更快的替代mwdumper来导入xmls?

命令 Java的罐子mwdumper.jar --format = SQL:1.5 page1.xml | mysql -u用户名-d数据库名称 似乎没有在Windows命令行上工作。

+0

形式尼斯反馈没有| (管道)在Windows中。 'mwdumper'可以选择将结果直接写入数据库。 – Tgr

+0

thx @Tgr你知道那个选项是什么吗?我一直在做的方式是打开mwdumper.jar,浏览文件,连接到数据库并导入,然后为每个文件重复该操作。 – hopeful

+0

'--output = mysql:'这里的[JDBC url](http://dev.mysql.com/doc/refman/5.0/en/connector-j-reference-configuration-properties.html)看起来像' mysql:// /?user = &password = '。您可以在[文档](http://www.mediawiki.org/wiki/Manual:MWDumper)中找到它以及所有其他选项。 (虽然没有保证,但我似乎记得有问题,但那是很久以前的事了。) – Tgr

回答

0

我比较了几个可用的选项。 maintenance/importDump.php已经胜券在握对我来说:

  • 这是链接到MediaWiki本身的一部分,所以更可能保持支持和少异常(其中,如果你开始搞乱SQL查询自己,你一定会得到)的机会。
  • 它的速度至少是我从maintenance/edit.php获得的代码的两倍。
  • 它可以在现有的MediaWiki安装程序上运行。
  • 它适用于GNU Parallel
  • 20.23 revs/sec