我一直在使用java.net爬虫来定制构建的爬虫。问题在于动态生成的内容,例如博客上的评论。考虑以下页面http://www.avc.com/a_vc/2010/09/contrarian-investing.html。如果抓取页面并获取源代码,则无法查看页面的全部内容。我需要的内容是因为我正在执行一些关键字密度计算。因此,我需要我的应用程序才能够确切地查看浏览器会看到的内容。有什么建议么?使用动态生成的内容爬取页面
我看了一下apache的httpclient,但是,就像上面的爬虫一样,只是返回源代码。我认为那个特定的页面有一个javascript部分,它返回来自另一个域的注释,所以我想我需要的是在下载它之后解析源代码,然后获取文本。任何帮助表示赞赏。
感谢
山姆
您在问是否有预构建的抓取工具会自动将嵌入式iframe的内容包含到父文档中? – pstanton 2010-09-12 22:10:13