使用Selen解析页面（部分由JavaScript生成）

我遇到了一个问题：我想解析一个页面（例如this one）以收集关于所提供的应用程序的信息并将这些信息保存到数据库中。使用Selen解析页面（部分由JavaScript生成）

此外，我使用crawler4j访问每个（可用）页面。但是，正如我所看到的那样，问题是，crawler4j需要在源代码中遵循的链接。

但是在这种情况下，hrefs是由一些JavaScript代码生成的，因此crawler4j不会获得访问/寻找页面的新链接。

所以我的想法是使用Selenium，这样我就可以像在Chrome或Firefox这样的真正浏览器中检查多个元素（我对此很新）。

但是，老实说，我不知道如何获得“生成”HTML代替源代码。

任何人都可以帮助我吗？

2014-08-28 Hisushi

要检查元素，您不需要Selenium IDE，只需使用Firefox和Firebug扩展。另外，通过添加开发人员工具，您可以查看页面的源代码以及生成的源代码（主要针对PHP）。

Crawler4J不能像这样处理JavaScript。最好留给另一个更高级的抓取库。在这里看到这个回应：

2014-09-15 21:01:35

回答