2010-08-25 63 views
3

我正在为我的网站创建站点地图。我这样做是因为我有大量的页面,只能通过搜索表单通常由用户访问。在站点地图中,建议在网站上包含每个页面的链接,还是只包含需要链接的链接?

我已经创建了一个自动方法,用于将链接拉出数据库并将其编译为站点地图。但是,对于所有可以经常访问并且不在数据库中的页面,我必须手动完成并将其添加到站点地图中。

这让我觉得普通页面是普通抓取工具发现的页面,所以看起来像是在这些页面中手动添加的麻烦,然后确保站点地图不断更新对它们的更改。

将它们排除,如果它们已被索引,并且我的站点地图只包含我的动态页面,这会不会很糟糕?

回答

3

Google会抓取它发现的任何网址(即robots.txt允许的网址),即使它们不在网站地图中。只要您的静态页面都可以从站点地图中的其他页面访问,排除它们就可以了。但是,站点地图XML还有其他一些功能可以激励您在站点地图中包含静态URL(例如修改日期和优先级)。

如果您愿意编写一个脚本来自动为数据库条目生成站点地图,那么请进一步,让您的脚本也为静态页面生成条目。这可以像搜索webroot并查找* .html文件一样简单。或者,如果您使用的是框架,请遍历您的框架的静态路由。

-3

是的,我认为将它们排除在外并不是一件好事。我认为最好还是寻找一种方式,让您的搜索页面可以被没有网站地图的抓取工具找到。例如,您可以添加某种高级搜索页面,用户可以在搜索项的表单中选择。爬行者也可以填写这些表单。

+1

比方说,你有一个搜索表单,你有一个关于苹果和关于猴子的页面的页面。在我看来,爬虫不会输入苹果,猴子和每一个术语,以确保他们获得你的每一页。剩下的答案没问题,但事实上这是不正确的。 – 2011-11-16 15:03:29