我最近被指控犯了一个让我头痛的任务。我的俱乐部希望通过网站找到正在做我们自己的人。如何解析/抓取/抓取特定信息的网站?
当前使用的方法是进入维基百科,获取每个城市的列表(例如:List of cities in alabama),进入每个网站(例如:meetup,facebook,craigslist等),然后执行搜索关键字,在每个城市,为每个网站。 (例如:功夫,武术等)
所以460个城市X 5个网站X 5个关键词= 11500个不同的搜索=头脑麻木单调。
我真的希望有一个更简单的方法。在寻找答案时,我遇到了这个网站(building a web spider),并认为这可能是一种方式。
问题是:我可以修改一些网页蜘蛛(在该网站或任何其他)做搜索,并只返回结果返回true的关键字?我不在乎它是一个bash脚本,Python,红宝石或任何其他语言。
让我知道,如果有任何不清楚,并抱歉,如果它有点冗长。
难道你不能只用谷歌? – 2011-04-08 04:17:45
我不熟悉这个“谷歌”你说... 大声笑在所有认真的谷歌搜索没有找到我需要的所有东西,即使它做了相同的搜索11500次到达我的目的地的过程。同时我也希望为这次考验学到一些东西,这就是为什么我希望找到某种代码。 – Guy0203 2011-04-08 04:33:45
也许scrapy可能有用吗? http://scrapy.org/ – juanchopanza 2011-04-08 06:40:16