2010-02-21 65 views
0

我们使用Google CSE(自定义搜索引擎)付费服务为我们网站上的内容建立索引。该网站主要由与包含文件组装在一起的PHP页面构建而成,但是有一些动态页面将数据库中的信息导入单个页面模板(例如新版本)。我们的问题是我可以设置数据库中的内容的过期日期,所以说“id = 2”会带来“此内容已过期”的通知。但是,如果ID 2附有上传的PDF,则PDF文件将保留在搜索索引中。当商品过期时从Google删除上传的文件

我知道我可以编写一个清理脚本,让cron运行它,查看数据库,找到过期的内容,检查是否有上传的文件被附加,并重新命名或删除它们,但必须有更好的解决方案(我希望)。

请让我知道你是否曾经遇到过这种情况,以及你的建议。

感谢, D.

回答

0

我们最终什么事做了捆绑检查脚本上传脚本,一旦完成当前上传,旧文件是“无关联”和DB记录被删除。

对我们来说,这是有效的,因为它是一种“添加/删除一个”的情况,我们希望一组项目以滚动顺序出现。

0

有遗憾的是没有办法给你在这个时候,直截了当地回答:我们不知道该怎样你的PDF进行“连接”到你的网页或你的数据库是如何构成的知识。

最好的解决方案是创建一个robots.txt文件,该文件可以阻止要删除的特定PDF文件的URL。谷歌将在下一次通过时将其从索引中删除(通常在大约一小时内)。

http://www.robotstxt.org/

+0

我没有想过写入机器人文件...可能工作。这些文件通过上传脚本上传,并将值存储在数据库中以获取文件名。所有文件都转到同一个目录,所以像http://www.domainname.com/uploads/pdffilehere.pdf这样的路径就是路径,而“pdffilehere.pdf”将存储在数据库的“url”列中。 – Don 2010-02-21 06:53:19