2010-12-08 114 views
1

我需要抓取网站,并在表单提交后从动态创建的页面中提取一些信息。使用动态页面抓取网站

我需要抓取的信息大多来自这些网站上的数据库。

补充:

爬行通常由一个超链接跳转到另一个工作。所以这些大多是静态页面。如何抓取不是静态存在但是即时创建的页面。

+0

很好,你能提供更多信息吗? – leppie 2010-12-14 11:23:16

回答

1

从履带的角度来看,没有太大区别。你仍然获得genrated HTML。

您唯一需要注意的是链接导致无限数量的页面,日历是动态生成的,并且具有指向下一个/上一个月/年的链接。