我最近一直在抓取很多网站的内容,并且很惊讶到目前为止没有网站能够提出很多抵制。理想情况下,我正在处理的网站不应该很容易被收获。所以我想知道什么是阻止漫游者收集您的网页内容的最佳方法。 明显的解决方案:什么是保护内容不被抓取的最佳措施?
- 的robots.txt(雅右)
- IP黑名单
什么可以做赶上机器人活动?怎样才能使数据提取变得困难?可以做些什么来给他们提供不好的数据?
关于SEO的关注,有没有办法来限制访问某些数据块(有点像文本<nofollow>
块?) 只是看看的想法,没有正确/错误答案
嗯...不要将它连接到互联网? – 2011-02-08 07:19:05