2014-10-08 95 views
0

TL; DR版本号: 我只听说过关于网络爬虫的智力交谈,我不是。我只想知道,可他们也跟着像一个特定的路径:是一个网络爬虫更合适?

first page (has lot of links) -->go to links specified-->go to 
links(specified, yes again)-->go to certain link-->reach final page 
and download source. 

我用Google搜索了一下,整个Scrappy来了。但我不确定是否完全理解网络抓取工具,并且如果scrappy可以帮助我遵循我想要的特定路径。

龙版

我想提取一组静态网页的一些文字。这些网页非常简单,只有基本的HTML。我使用pythonurllib访问URL,提取文本并使用它。很快,我意识到我将不得不基本访问所有这些页面,并将URL复制到我的程序中,这很烦人。我想知道这是否更适合网络爬虫。我想访问this 页面。然后选择只有几个organisms(我有这些列表)。点击它们你可以看到this页面。如果你看下表 - MTases active in the genomeEnzymes这是hyperlinks。叮当作响,导致this页面。在右侧有链接Sequence Data。一旦点击,它会导致页面右下方有一个小桌子,并带有黄色标题。它下面有一个条目DNA (FASTA STYLE。点击视图会导致页面感兴趣并想从页面下载源代码。

+0

是的,你可以。如果你更仔细地看看Scrapy的文档,他们可以帮助你按照你想要的路径行事。 – Beginner 2014-10-08 21:20:50

回答

0

我认为你绝对是在寻找一个网络爬虫来帮助你做到这一点的正确轨道。你也可以看看Norconex HTTP Collector,我知道它可以让你跟踪页面上的链接,而不会存储该页面,如果这只是一个列表页面给你。该抓取工具允许您在链接被解压缩后进行过滤。最终,您可以配置正确的过滤器,以便只有匹配所需模式的页面才能下载,以供您处理(无论是基于爬网深度,URL模式,内容模式等)。