TL; DR版本号: 我只听说过关于网络爬虫的智力交谈,我不是。我只想知道,可他们也跟着像一个特定的路径:是一个网络爬虫更合适?
first page (has lot of links) -->go to links specified-->go to
links(specified, yes again)-->go to certain link-->reach final page
and download source.
我用Google搜索了一下,整个Scrappy来了。但我不确定是否完全理解网络抓取工具,并且如果scrappy可以帮助我遵循我想要的特定路径。
龙版
我想提取一组静态网页的一些文字。这些网页非常简单,只有基本的HTML
。我使用python
和urllib
访问URL
,提取文本并使用它。很快,我意识到我将不得不基本访问所有这些页面,并将URL
复制到我的程序中,这很烦人。我想知道这是否更适合网络爬虫。我想访问this 页面。然后选择只有几个organisms
(我有这些列表)。点击它们你可以看到this页面。如果你看下表 - MTases active in the genome
有Enzymes
这是hyperlinks
。叮当作响,导致this页面。在右侧有链接Sequence Data
。一旦点击,它会导致页面右下方有一个小桌子,并带有黄色标题。它下面有一个条目DNA (FASTA STYLE
。点击视图会导致页面感兴趣并想从页面下载源代码。
是的,你可以。如果你更仔细地看看Scrapy的文档,他们可以帮助你按照你想要的路径行事。 – Beginner 2014-10-08 21:20:50