2011-05-16 62 views
4

我正在尝试使用Scrapy来刮取美国政府法规网站(www.regulations.gov)。它有很多关于它的信息,但它是一个可怕的网站,它充满了JavaScript和iframe。我试图运行一些简单的Scrapy蜘蛛,但我无法解析任何东西,因为一切都通过Javascript和iframe加载。在Javascript和iFrames及其替代品中使用Scrapy

例如,在main search page,这个代码块实际上载入了成绩表:

<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script> 

<title>Regulations.gov</title> 
<link rel="stylesheet" type="text/css" href="css/print.css" media="print" /> 
</head> 

<body class="bodyLoading"> 
<!-- this is required for GWT history support --> 
<iframe src="javascript:''" id="__gwt_historyFrame" tabIndex='-1' style="position:absolute;width:0;height:0;border:0"></iframe> 
<!-- For printing window contents --> 
<iframe id="__printingFrame" style="width:0;height:0;border:0;" ></iframe> 

而且,个别结果页面有同样的问题。例如,this page与上述具有相同的来源。

Scrapy可以处理这个问题吗?有没有其他可能的选择?

回答