网络爬虫，它检索网站源代码

-3

我想做一些困难。我想做一个爬虫，除了从链接将下载也网站的源代码。之后，我想做一个程序如果语句存在（例如，如果有一个标题不包括此网站），它将搜索每个网站的源代码。网络爬虫，它检索网站源代码

2011-03-19 akageek

这是不可能的，除非你的意思是*源HTML * – BrokenGlass 2011-03-19 19:51:15

你的问题不是非常具体，并已在本网站上为大多数常用语言回答。请记住使用搜索功能，所有的网页爬虫在某个时候检索页面的“源代码”（html）。这是唯一需要回收的东西。 – Mat 2011-03-19 19:51:52

您无法从脚本读取服务器代码。您只能抓取HTML或其他任何在客户端上运行的内容（即javascript）。

2011-03-19 19:53:31 Spyros

是的，我的意思是html – akageek 2011-03-19 19:55:10

html中没有“if”:)抓取html虽然是每个抓取工具的作用，并且这很容易做到。 – Spyros 2011-03-19 19:57:10

你能帮助我吗？ – akageek 2011-03-19 20:05:08

我曾经为类似的东西找到过一个PHP脚本，但它当然抓住了客户端代码（正如SpyrosP准确地说的那样）。请参阅http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html

2011-03-19 19:55:35 Cogicero

是的，我的意思是html代码 – akageek 2011-03-19 19:56:11

以下是使用HttpWebRequest对象获取信息的C＃示例。

2011-03-19 20:27:26

你可以通过jsoup
jsoup是一个Java库与现实世界的HTML工作。
jsoup - official site link
您可以检索信息，使用标签解析Html。

2013-03-23 12:13:26 PKhode

我认为你也可以测试。

2014-01-01 03:30:59 jabrena

回答