2012-01-31 69 views
0

我正在创建一个网站,其管理员上传文件只能提供给网站的付费会员。但我想要的是搜索引擎抓取或索引文档,以便它出现在搜索引擎的搜索结果中。文件包括DOC,DOCX和PDF。允许搜索引擎索引文档,但只允许访问付费会员。可能?

例如我有一个文件,有这样的文字:“快速的棕色狐狸跳过懒惰的狗”。现在有人Google的“棕色狐狸”。假设我有积分榜,我希望结果出现在Google结果中。当用户点击它时,我希望用户登录一个页面,而不是文档,其中有一个文本预览,其中链接是查看完整文档的成员。

我计划在文档上传时,页面上文档的预览将被保存到数据库中。所以它很容易看到并且可以抓取。对于整个文档,我只能想到允许抓取整个文档。但我认为,如果我允许搜索引擎抓取,那么我也会为用户提供访问权限。如果我使用htaccess来防止直接访问文档,那么我也会关闭爬虫。

我也考虑过提取所有文档文本并将其放入数据库中,但是我在某处读到,很难区分用户和蜘蛛,并且使用用户代理是一个坏主意,因为它非常容易欺骗。

所以我很困惑,我应该如何去做这件事。任何帮助将不胜感激。 提前谢谢!

回答

1

不,不可能。任何用户都可以通过更改其用户代理来伪装成搜索引擎。

您可以执行基于IP地址的限制或启发式检测,但您可能会意外阻止抓取工具。

也许你应该每天给用户一些免费的页面浏览量,或者考虑一种不同的货币化方法。

+0

谢谢!这些免费的观点引起了我的注意。我会沿着这些路线尝试一些事情 – salmanhijazi 2012-01-31 10:56:54

+0

如果用户从搜索引擎转到您的网页,期望他们在搜索引擎中找到的内容,他们当然不会在您的网站上留下内容,因为您已经完成了该内容当天分配的页面浏览量。如果必须的话,以这种方式保护您的内容,但我认为这不会成为您可行的商业模式。 – Brad 2012-01-31 14:51:24

1

要做的最好的事情是允许您的页面索引,并附有相关的内容片段,可供公众查看。

不要试图通过向用户代理提供特定内容来欺骗搜索引擎。即使只使用搜索引擎功能进行缓存,用户也可以轻松解决这个问题。专家交流是这个臭名昭着的。这些技巧不值得你花时间。

总之,老实说,你的网页。如果必须的话,为每个人显示一些内容,并且只允许拥有帐户的用户访问全部内容。

+0

谢谢!这就是我已经计划好的,但现在我对此充满信心。 – salmanhijazi 2012-01-31 10:56:27