2009-11-20 91 views
1

我有一个Drupal网站,其页面由Google Mini Search Appliance索引。Drupal和Google Search Appliance(Google Mini)

在本周早些时候,我注意到一堆链接被标记为索引,但被排除在外,因为有一个“打印此页”链接回到同一页面并且具有rel =“nofollow”。我把nofollow拿出来,让GSA在2天前重新编制网站。

现在,所讨论的页面在GSA中被标记为索引,但它们没有出现在网站的搜索结果中。

我可以在/ search/google_appliance/TERM搜索,并且它们不显示。当我搜索其他条款时,它们确实显示出来。换句话说,我知道GSA正在工作。

当我在/ search/node/TERM搜索[Drupal默认搜索]时,我得到了不同的Drupal结果[页面中出现了术语显示]。这让我很确定我正在击中GSA。

关于为什么新索引的页面没有出现在GSA搜索中的任何想法?

编辑/已解决: 有几个问题。以前,搜索使用xslt来处理它如何显示页面,以及当您点击提交时(在设备上,而不是网站上的提交按钮),它在页面上发送查询的位置。查询字符串以旧格式传递到网站,然后给出404(同样的事情,如果您搜索bookstore.site.com和origin.site.com)。更多的'不能从这里到达'比任何搜索都要做的问题更困难。我已经删除了xslt,因此它只是使用默认的Google外观和感觉,并且可以让我们对设备的数据库进行很好的通用搜索。

但是,仍然有一些奇怪的搜索结果回来,Drupal模块无法解析,并且日志被simplexml_load_string()[function.simplexml-load-string]命中:^在\ sites \ all \ modules中\ google_appliance \ GoogleMini.php on line 318.

我尝试了一些查询字符串变量并注释掉了设置输出编码的行,并且所有行为似乎都行得通。 有问题的行是google_appliance.module行322:

$gm->setOutputEncoding('utf8'); 
+0

这方面的进展如何?你有没有找到任何有助于减少要考虑的假设/帮助追踪问题的信息? – mac

回答

2

我不是100%肯定,我收到了你的问题的权利。我在这里假设:

  1. 什么GSA丢失索引是从其中有链接“打印此页”(而不是假设这些网页索引的网页和问题是在索引的打印版本这样的页面)
  2. 下位意味着你可以找到包含其他条款,而不是你能找到缺页,如果你与另一个术语搜索它们的其他页面。

我可以在/ search/google_appliance/TERM搜索并且不显示。当我搜索其他条款时,它们确实显示出来。换句话说,我知道GSA正在工作

请纠正我,如果我误解了你的问题。如果我错了,请提供一些关于您使用的术语的更多细节。

但是,这是什么II将用于识别问题的根源做(尽管我可能会在这个精确的顺序做这些):

  1. 我会试着去了解哪些与众不同“坏页面”的元素(如果有)会触发奇怪的行为。看来你已经完成了一些挖掘工作,并将其视为打印链接的罪魁祸首。你是否通过完全删除链接来验证这一点,并看看在这种情况下页面是否正确索引?
  2. 我会检查robots.txt是否有任何可能干扰索引的规则。 GSA赞同该文件,例如,如果您的网页的网址以/admin/开头,则这些网页将被跳过。
  3. 我会检查我的网页是否有某种限制其视图的访问控制。如果是这样,我会检查GSA has been configured for that。 (当然这同样适用于未发布的页面,您必须是管理员才能查看或使用外部应用程序将其编入索引)。
  4. 我不确定GSA是否使用sitemap.xml来执行索引。但是,我会检查Drupal生成的sitemap.xml文件(如果有的话)检查公然错误,如优先级设置为0,例如。如果你还没有这样的文件,并且知道GSA使用它,我会尝试生成一个with the appropriate module,看看是否可以解决问题。
  5. 我会inspect the sitemap generated by GSA看看它是否显示任何公然异常也。这显然不是问题,但任何形式的自我解释异常都可能使你走上正轨。
  6. 我问题不是特定于页面结构(请参阅此列表的第1点)我将开始系统性地搜索什么是非结构元素生成错误。一个不同的主题是否解决了这个问题。停用给定的模块是否可以解决问题? (也许问题出在元标签上?也许是用“打印此页”模块?也许模块会将这些页面的语言设置为与网站其余部分不同的语言?)。所有这些都是不太可能的,但在用大锤击碎GSA之前,我也会尝试。
  7. 我会通过(可能是第N次)所有的settings of my GSA

以上所有 - 如果我有机会 - 我会与同伴一起做。他或她可以帮助排除“人为因素”作为问题的根源(即配置面板中的小复选框对他/她而言非常重要,但以前您从未注意过)。

如果您设法找出有关正在进行的更多提示,请在此处将其回报。如果这是drupal方面的问题,我很确定我或者其他一些优秀的“drupalists”悬挂在SO上能够提供帮助。

HTH!

0

我最近苦于类似的东西。

一个建议在这里 - 选择一个你知道有搜索词的页面。在浏览器中打开页面的HTML,并确保您看到该字词。绝对确定。

接下来,将该URL作为抓取中的起始页之一放入。

爬网后,进入搜索诊断并深入该页面。你看到它爬行吗?好的,好,现在看看页面的缓存。在“链接到此页面”右下方应该是一个名为“缓存版本”的超链接。看那个。你可能会惊喜!我当然是。

相关问题