我想做一些困难。我想做一个爬虫,除了从链接将下载也网站的源代码。之后,我想做一个程序如果语句存在(例如,如果有一个标题不包括此网站),它将搜索每个网站的源代码。网络爬虫,它检索网站源代码
-3
A
回答
0
2
我曾经为类似的东西找到过一个PHP脚本,但它当然抓住了客户端代码(正如SpyrosP准确地说的那样)。请参阅http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html
+0
是的,我的意思是html代码 – akageek 2011-03-19 19:56:11
1
以下是使用HttpWebRequest对象获取信息的C#示例。
0
你可以通过jsoup
jsoup是一个Java库与现实世界的HTML工作。
jsoup - official site link
您可以检索信息,使用标签解析Html。
0
你用linux comando wget测试过吗? http://m.linuxjournal.com/content/downloading-entire-web-site-wget
我认为你也可以测试。
相关问题
- 1. 网络爬虫
- 2. PHP网络爬虫
- 3. java网络爬虫
- 4. Python网络爬虫
- 5. asp.net mvc网站搜索使用网络爬虫
- 6. Python网络爬虫和“获取”html源代码
- 7. 蟒蛇爬虫代码搜索网络上的任何文件
- 8. 需要网络爬虫
- 9. 自动网络爬虫
- 10. 网络爬虫,反馈?
- 11. 网络爬虫不打印
- 12. 网络爬虫应用
- 13. 网络爬虫提取
- 14. python网站爬虫(多个网站)
- 15. 让PHP网络爬虫尊重任何网站的robots.txt文件
- 16. 针对windows的增量爬网支持的网络爬虫
- 17. 获取页面的完整的HTML源代码进行网络爬虫
- 18. 是一个网络爬虫更合适?
- 19. 在Scala中的网络爬虫算法
- 20. 网络爬虫使用双绞线
- 21. 识别敌对网络爬虫
- 22. 与Python 2.7.9分页网络爬虫
- 23. 网络爬虫遇到什么危险?
- 24. 错误使用C#网络爬虫
- 25. PHP与Python对于网络爬虫
- 26. 制作网络爬虫/蜘蛛
- 27. 在android上的简单网络爬虫?
- 28. 网络爬虫和GET与POST请求
- 29. 网络爬虫产生输出缓存
- 30. 网络爬虫更新策略
这是不可能的,除非你的意思是*源HTML * – BrokenGlass 2011-03-19 19:51:15
你的问题不是非常具体,并已在本网站上为大多数常用语言回答。请记住使用搜索功能,所有的网页爬虫在某个时候检索页面的“源代码”(html)。这是唯一需要回收的东西。 – Mat 2011-03-19 19:51:52