我想抓取特定的东西。特别是像音乐会,电影,艺术画廊开幕式等等发生的事件。任何人都可能花费时间去做。抓取Internet
如何实现爬网程序?
听说蛴螬(grub.org - >维基)和Heritix(http://crawler.archive.org/)
是别人吗?
每个人都有什么意见?
-Jason
我想抓取特定的东西。特别是像音乐会,电影,艺术画廊开幕式等等发生的事件。任何人都可能花费时间去做。抓取Internet
如何实现爬网程序?
听说蛴螬(grub.org - >维基)和Heritix(http://crawler.archive.org/)
是别人吗?
每个人都有什么意见?
-Jason
是否有特定语言的要求?,
我花了一些时间与奇尔卡特蜘蛛库的玩弄了.NET而回用于个人实验,
上次我检查有蜘蛛利布斯,被许可作为免费软件, (本书虽然不是开源的,据我所知:()
看来他们已经蟒蛇库对。
http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp#.Net
无论你做什么,请成为一个好公民,并服从robots.txt文件。您可能想要查看focused crawlers上维基百科页面的参考资料。刚刚意识到我知道Topical Web Crawlers: Evaluating Adaptive Algorithms的作者之一。小世界。
如果您发现爬行互联网变成了一项任务,您可能需要考虑构建RSS aggregator并订阅受欢迎的活动网站(如craigslist和coming.org)的RSS订阅源。
这些网站都提供本地化的可搜索事件。 RSS为您提供了一些(少数)标准化格式,而不必拥有构成网络的所有格式错误的html ...
有一些开源库,如ROME(java),可能有助于RSS提要的消耗。
以下Kevin's对RSS提要的建议,您可能想要查看Yahoo pipes。我还没有尝试过,但我认为它们允许您处理多个RSS订阅源并生成网页或更多RSS订阅源。
绝对不要使用管道。这不是非常可靠和非常缓慢。 – mixdev 2010-06-17 10:48:46
该主题的优秀介绍性文字是Introduction to Information Retrieval(全文可在线获取)。它有关于Web crawling的一章,但也许更重要的是,它为您想要对抓取的文档执行的操作提供了基础。
Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg
梦幻般的书。 – 2009-06-25 21:59:32
退房Scrapy。这是一个用Python编写的开源Web爬虫框架(我听说它与Django类似,除了它提供下载它们的页面)。它易于扩展,分布式/并行,看起来非常有前途。
我会使用Scrapy,因为这样我就可以节省我的优势,用于更琐碎的事情,比如如何从刮掉的内容中提取正确的数据等并插入到数据库中。
实际编写的比例定向爬虫是一个相当艰巨的任务。我在工作中实施了一个并保持了很长一段时间。除非你写出一个问题并解决问题,否则你不知道存在很多问题。具体处理CDN和友好的网站爬行。自适应算法非常重要,否则您将跳闸DOS过滤器。其实你无论如何都不知道它是否足够大。
事情要考虑:
实际上,我写了一些东西,如果我能解决它,我可能会在网上提供有关履带式建筑的信息,因为建造一个合适的建筑比人们告诉你要困难得多。大多数开源爬虫对大多数人来说工作得很好,所以如果你能,我建议你使用其中的一种。哪一个是功能/平台选择。
是的!这是为我开始的一本书。 – KJW 2013-04-01 19:01:42