我正在制作一个Java程序,它涉及从网页中提取标签。对于解析,我使用Jsoup,它工作正常。但是有一些问题下载页面中的标签。 我有4个文件: -我如何获得HTML中的所有脚本的内容
- goog1.htm
- goog2.html(这是我从https://www.google.co.in通过浏览器保存的)(我下载使用命令 'wget的https://www.google.co.in')
- goog3.html(我通过我的Java程序下载使用的BufferedReader的InputStreamReader &)
- goog4.html(这是我获得通过复制整个代码“查看源代码:https://www.google.co.in/”)
当我在这4个文件中搜索字符串“< script />”时,所有结果都不一样。
- goog1.htm - 16倍
- goog2.html - 5倍
- goog3.html - 5倍
- goog4.html - 10倍
什么是这种情况的原因区别 ?如何从页面获取所有脚本标记?
我应该使用哪个文件来测试我的程序?
在此先感谢...
*“我应该使用哪个文件来测试我的计划吗?” *也许从一个Web服务,不走极端,以防止** **的编程访问(如谷歌一样)? – 2013-05-03 12:25:41
您是否处理了从这些网站获取的内容,或者您是否也要求这样做? – 2013-05-03 12:44:06