2013-03-11 119 views
0

我需要建立一个数据库/ csv文件,其中包含与特定关键字相关的150,000个句子(自然人类谈话/思考/)。例如,“iphone 5”。网页抓取/抓取的资源

我尝试使用谷歌搜索关键字,并得到结果,做一些网络爬行,但它不工作。

如果你能给我一个更好的建议,任何免费的软件,资源哪里可以得到好的结果。

谢谢

+0

这是更多的SEO相关?在http://webmasters.stackexchange.com/ – 2013-03-11 15:39:17

回答

0

是您请求的任务,我建议建立一个包含 社会信息动态数据库来自几个社交网站(论坛,文章等)。

,你可以建立自己的小型Web crawller和配置他只刮所需要的内容 或者您可以使用wgetcurl以及(这些都是免费的爬虫)。

现在你可以填充社交内容你的分贝,然后用你的关键字 搜索它,并找到你需要的相关社交帖子。

+0

thanx中询问可能比较困难。这就是我所做的。每分钟我都访问一个社交网站并检查是否有新帖子。如果有,它会自动发布到数据库。 – John 2013-03-24 02:57:29

+0

太棒了!关键是要微调你的刮刀,只保存相关数据......清洁剂更好。祝你好运 – 2013-03-24 04:07:16