2013-03-18 64 views
-2

我需要解析所有维基百科的网页。我怎样才能做到这一点?如何解析所有维基百科的网页?

我可以通过它的网站地图吗?如果是这样,维基百科的网站地图在哪里?

+2

因此,您想知道如何在未经他们许可的情况下翻译来自维基百科的所有内容?你在问什么? – Crontab 2013-03-18 14:37:55

+4

为什么要解析整个网站?维基百科提供整个数据库作为下载,用于镜像等... http://en.wikipedia.org/wiki/Wikipedia:Database_download – 2013-03-18 14:39:05

+1

@Crontab他有他们的许可。所有维基百科的内容在[知识共享许可协议](http://en.wikipedia.org/wiki/Wikipedia:Copyrights)和GNU FDL – 2013-03-18 14:40:05

回答

5

与其解析所有的网页,维基百科允许你download their database。这是首选方法,因为它通常会更快,因为维基百科有超过400万篇文章。

这对维基百科来说也比较公平,并且不会让你被侵略性爬行所阻挡。请阅读this policy

+0

有没有办法只获得所有wikipedia的意大利网页的标题?谢谢:) – xRobot 2013-03-18 14:48:44

+0

@xRobot查看[documentation](http://www.mediawiki.org/wiki/Manual:Database_layout)。 **提示**:具体来说,请查看具有'page_title'字段的[page](http://www.mediawiki.org/wiki/Manual:Page_table)表。 – 2013-03-18 14:53:07