2010-10-13 70 views
0

Java的HTML解析器我解析HTML页面来获得具体信息,但也有一些网页,我不能让网页上显示的所有信息,例如在this page犯规阅读所有页面

我不能得到评论信息。顺便说一句,如果你看到页面的源代码有很多空行,并且评论信息不会出现。

你知道为什么吗? 有些库可以读取这种类型的页面?

感谢

回答

1

我敢打赌,他们正在使用某种形式的JavaScript在审查信息加载。为了访问这些信息,您需要以某种方式模仿请求或评估JavaScript,然后解析生成的页面。我会建议检查他们的javascript并模仿他们用来下载评论信息的请求,因为这将比尝试评估代码中的JavaScript容易得多。