2011-03-19 76 views
-3

我想做一些困难。我想做一个爬虫,除了从链接将下载也网站的源代码。之后,我想做一个程序如果语句存在(例如,如果有一个标题不包括此网站),它将搜索每个网站的源代码。网络爬虫,它检索网站源代码

+1

这是不可能的,除非你的意思是*源HTML * – BrokenGlass 2011-03-19 19:51:15

+0

你的问题不是非常具体,并已在本网站上为大多数常用语言回答。请记住使用搜索功能,所有的网页爬虫在某个时候检索页面的“源代码”(html)。这是唯一需要回收的东西。 – Mat 2011-03-19 19:51:52

回答

0

您无法从脚本读取服务器代码。您只能抓取HTML或其他任何在客户端上运行的内容(即javascript)。

+0

是的,我的意思是html – akageek 2011-03-19 19:55:10

+1

html中没有“if”:)抓取html虽然是每个抓取工具的作用,并且这很容易做到。 – Spyros 2011-03-19 19:57:10

+0

你能帮助我吗? – akageek 2011-03-19 20:05:08