我有一个Drupal网站,其页面由Google Mini Search Appliance索引。Drupal和Google Search Appliance(Google Mini)
在本周早些时候,我注意到一堆链接被标记为索引,但被排除在外,因为有一个“打印此页”链接回到同一页面并且具有rel =“nofollow”。我把nofollow拿出来,让GSA在2天前重新编制网站。
现在,所讨论的页面在GSA中被标记为索引,但它们没有出现在网站的搜索结果中。
我可以在/ search/google_appliance/TERM搜索,并且它们不显示。当我搜索其他条款时,它们确实显示出来。换句话说,我知道GSA正在工作。
当我在/ search/node/TERM搜索[Drupal默认搜索]时,我得到了不同的Drupal结果[页面中出现了术语显示]。这让我很确定我正在击中GSA。
关于为什么新索引的页面没有出现在GSA搜索中的任何想法?
编辑/已解决: 有几个问题。以前,搜索使用xslt来处理它如何显示页面,以及当您点击提交时(在设备上,而不是网站上的提交按钮),它在页面上发送查询的位置。查询字符串以旧格式传递到网站,然后给出404(同样的事情,如果您搜索bookstore.site.com和origin.site.com)。更多的'不能从这里到达'比任何搜索都要做的问题更困难。我已经删除了xslt,因此它只是使用默认的Google外观和感觉,并且可以让我们对设备的数据库进行很好的通用搜索。
但是,仍然有一些奇怪的搜索结果回来,Drupal模块无法解析,并且日志被simplexml_load_string()[function.simplexml-load-string]命中:^在\ sites \ all \ modules中\ google_appliance \ GoogleMini.php on line 318.
我尝试了一些查询字符串变量并注释掉了设置输出编码的行,并且所有行为似乎都行得通。 有问题的行是google_appliance.module行322:
$gm->setOutputEncoding('utf8');
这方面的进展如何?你有没有找到任何有助于减少要考虑的假设/帮助追踪问题的信息? – mac