我已经搜索周围,但没有得到太多的帮助。这是我的问题。我想从维基百科的门户页面开始,说Computer_science并去其categories页面。该类别中有一些页面,并且有子类别的链接。我将访问其中的一些页面,并单独获取页面摘要。然后通过这个类别页面的指针进入下一个级别,依此类推。仅获取维基百科摘要
我知道C++/php/js/python。这里最适合?我想在一天内做到这一点。我知道有一个API,但它似乎没有帮助获取内容。
- 我需要的网页
- 解析他们得到的类别DIV(或元素由原始数据维基提供)用于获取摘要以及去其他页面。
我需要的编程语言,库,如果可用的公共代码的建议。 我也听说wiki不喜欢漫游器爬虫,我打算最多可以获得500个文档。那是问题吗?
非常感谢
@Sanjeev Satheesh它可以用正则表达式来进行提取结构化信息。如果它不是太复杂,它可能会迅速完成相对速度。我去维基百科和你的链接,看看你想要什么,并研究问题 – eyquem 2011-03-08 11:26:47
@Sanjeev Satheesh我们如何从门户Computer_science到其分类页面?门户页面中的链接转到其分类页面是什么? – eyquem 2011-03-08 11:34:24
向下滚动门户页面。这是一个名为'Categories'的链接。 – 2011-03-08 11:36:18