我试图从动态生成的网页下载一些数据,所以使用wget不起作用。该页面为http://gaceta.diputados.gob.mx/SIL/Legislaturas/Listados.html我想下载显示的每个选项的列表,可以在“Legislatura”字段中选择一次,然后下载我可以使用红宝石处理数据。如何从网页下载动态生成的内容?
只是想知道什么是最好的下载方式,并且如果可以选择每个选项并下载。
我试图从动态生成的网页下载一些数据,所以使用wget不起作用。该页面为http://gaceta.diputados.gob.mx/SIL/Legislaturas/Listados.html我想下载显示的每个选项的列表,可以在“Legislatura”字段中选择一次,然后下载我可以使用红宝石处理数据。如何从网页下载动态生成的内容?
只是想知道什么是最好的下载方式,并且如果可以选择每个选项并下载。
您可以使用Safari或Chrome中的Web Inspector或Firefox中的Firebug扩展来查看数据的加载方式。该页面正在为此网站的Perl脚本执行AJAX POST请求,并且数据以XML形式返回。
我会用cURL来获取数据。
您可以使用http://watir.com/或webrat模拟您将如何查看数据然后使用Nokogiri解析HTML。
谢谢,这工作得很好。 – lander16 2011-05-02 20:17:57