2015-07-20 74 views
1

我想通过维基百科文章,梳理并希望在每篇文章的以下信息:以纯文本有没有一个Python模块解析维基百科文章没有MediaWiki?

内容,链接重定向(页面重定向到当前页面的标题)和元数据(页面浏览和编辑的每月)

MediaWiki API是非常全面的,但也很密集,因为它是用于编辑页面。我已经尝试了维基百科和mwclient模块,但是这些模块没有可用的元数据。是否还有另一个可用的工具,它提供了API的只读功能,而无需API的开销?

回答

3

有一些alternative parsers但一般MediaWiki的解析是难以复制的(它没有正式的规范,并且被实现为正则表达式的混乱)。使用API​​或DB dumps几乎总是会更好。具体而言,链接和重定向可用作数据库转储中的表。文字可通过extracts API获得,综合浏览量为a work in progress。我不认为汇总的编辑数据可用。