我想用Greasemonkey抓取一个站点,并想知道是否有比GM_setValue更好的临时存储值的方法。为基于Greasemonkey的搜寻器存储数据的最佳方法?
我想要做的是在社交网络中抓取我的联系人,并从他们的个人资料页面中提取Twitter网址。
我目前的计划是打开它自己的选项卡中的每个配置文件,使它看起来更像一个正常的浏览人(即CSS,scrits和图像将由浏览器加载)。然后用GM_setValue存储Twitter网址。一旦所有配置文件页面被抓取后,使用存储的值创建一个页面。
虽然我对存储选项并不满意。也许有更好的方法?
我曾考虑将用户配置文件插入当前页面,以便我可以使用相同的脚本实例处理它们,但我不确定XMLHttpRequest是否显示对普通用户启动的请求无法判断。
想要Greasemonkey的原因是要抓取的页面并不真正批准机器人。 Greasemonkey似乎是使爬虫看起来合法的最简单方法。 – 2009-07-02 10:38:04