我需要建立一个数据库/ csv文件,其中包含与特定关键字相关的150,000个句子(自然人类谈话/思考/)。例如,“iphone 5”。网页抓取/抓取的资源
我尝试使用谷歌搜索关键字,并得到结果,做一些网络爬行,但它不工作。
如果你能给我一个更好的建议,任何免费的软件,资源哪里可以得到好的结果。
谢谢
我需要建立一个数据库/ csv文件,其中包含与特定关键字相关的150,000个句子(自然人类谈话/思考/)。例如,“iphone 5”。网页抓取/抓取的资源
我尝试使用谷歌搜索关键字,并得到结果,做一些网络爬行,但它不工作。
如果你能给我一个更好的建议,任何免费的软件,资源哪里可以得到好的结果。
谢谢
你不能刮谷歌的搜索结果。 (嗯,谷歌实际上并不鼓励它。)试试Google CSE。
有一些框架/网站,将使抓取更容易。
编辑:16年12月8日
Scraperwiki现在https://quickcode.io/
是您请求的任务,我建议建立一个包含 社会信息动态数据库来自几个社交网站(论坛,文章等)。
,你可以建立自己的小型Web crawller和配置他只刮所需要的内容 或者您可以使用wget或curl以及(这些都是免费的爬虫)。
现在你可以填充社交内容你的分贝,然后用你的关键字 搜索它,并找到你需要的相关社交帖子。
thanx中询问可能比较困难。这就是我所做的。每分钟我都访问一个社交网站并检查是否有新帖子。如果有,它会自动发布到数据库。 – John 2013-03-24 02:57:29
太棒了!关键是要微调你的刮刀,只保存相关数据......清洁剂更好。祝你好运 – 2013-03-24 04:07:16
这是更多的SEO相关?在http://webmasters.stackexchange.com/ – 2013-03-11 15:39:17