2013-04-05 175 views
7

是否有一个很好的库/包使用Scheme(最好是Racket)进行网络抓取?网络抓取计划

例如一个相当于mechanize的计划?

+0

可以将有效的HTML(读取XML)轻松解析为S表达式。 – leppie 2013-04-05 16:21:40

+0

好吧,但是提交html表单,导航链接等呢? – abeln 2013-04-05 16:23:09

+0

我相信Racket有一些http-client/web-client库。 – leppie 2013-04-05 16:24:38

回答

7

我用球拍net/url库的结合,html-parsing packageSXML(尤其是sxpath,对于XPath查询)。其实,我写了some wrappers围绕网络/网址,使它稍微容易使用,国际海事组织。

当我需要处理cookies时,我已经调用curl命令而不是使用net/url。