我遇到了一个问题:我想解析一个页面(例如this one)以收集关于所提供的应用程序的信息并将这些信息保存到数据库中。使用Selen解析页面(部分由JavaScript生成)
此外,我使用crawler4j访问每个(可用)页面。但是,正如我所看到的那样,问题是,crawler4j需要在源代码中遵循的链接。
但是在这种情况下,hrefs是由一些JavaScript代码生成的,因此crawler4j不会获得访问/寻找页面的新链接。
所以我的想法是使用Selenium,这样我就可以像在Chrome或Firefox这样的真正浏览器中检查多个元素(我对此很新)。
但是,老实说,我不知道如何获得“生成”HTML代替源代码。
任何人都可以帮助我吗?