我正在创建一个网站,其管理员上传文件只能提供给网站的付费会员。但我想要的是搜索引擎抓取或索引文档,以便它出现在搜索引擎的搜索结果中。文件包括DOC,DOCX和PDF。允许搜索引擎索引文档,但只允许访问付费会员。可能?
例如我有一个文件,有这样的文字:“快速的棕色狐狸跳过懒惰的狗”。现在有人Google的“棕色狐狸”。假设我有积分榜,我希望结果出现在Google结果中。当用户点击它时,我希望用户登录一个页面,而不是文档,其中有一个文本预览,其中链接是查看完整文档的成员。
我计划在文档上传时,页面上文档的预览将被保存到数据库中。所以它很容易看到并且可以抓取。对于整个文档,我只能想到允许抓取整个文档。但我认为,如果我允许搜索引擎抓取,那么我也会为用户提供访问权限。如果我使用htaccess来防止直接访问文档,那么我也会关闭爬虫。
我也考虑过提取所有文档文本并将其放入数据库中,但是我在某处读到,很难区分用户和蜘蛛,并且使用用户代理是一个坏主意,因为它非常容易欺骗。
所以我很困惑,我应该如何去做这件事。任何帮助将不胜感激。 提前谢谢!
谢谢!这些免费的观点引起了我的注意。我会沿着这些路线尝试一些事情 – salmanhijazi 2012-01-31 10:56:54
如果用户从搜索引擎转到您的网页,期望他们在搜索引擎中找到的内容,他们当然不会在您的网站上留下内容,因为您已经完成了该内容当天分配的页面浏览量。如果必须的话,以这种方式保护您的内容,但我认为这不会成为您可行的商业模式。 – Brad 2012-01-31 14:51:24