2016-12-27 79 views
1

我试图以XML文件的形式获取对给定维基百科文章进行修订的所有细节。然而,我无法完全理解它。例如,this link提供了一个只包含1000个编辑的XML。如何获取Wikipedia文章的所有XML修订版本?

获取所有修订的详细信息是here

我用卷曲得到它,但是,我无法得到我的愿望。有人使用过这种方法吗?或者是否有其他方法来获取包含文章所有修订的XML或一组XML?

回答

1

您可以通过使用MediaWiki API得到所有维基百科页面的修订历史:

https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvprop=parsetree&titles=Tiger%20snake&rvlimit=500 

rvlimit50对于普通用户来说,500用于注册和5000的机器人。要获得所有修订,您需要使用前一个响应中的rvcontinue值创建一个循环。

+0

请原谅我的无知。但是我仍然无法获得XML。当我遵循你给出的地址时,我没有得到XML。你能指导更多吗?例如,我想要一个具有“美国”文章修订版的XML。谢谢 – annie

+0

@xerox你得到了什么?链接不工作或...? – Termininja

+0

你能帮助我如何以及在哪里执行上述查询以及如何使用'rvcontinue'来获取文章的所有修订? – annie

相关问题