googlebot

    -1热度

    1回答

    我试图通过以下所有内部链接自动抓取给定的网站,做到这一点我一直在玩蟒蛇mechanize库,虽然这不允许我使用JavaScript和ajax内容。 谷歌机器人和其他主要搜索引擎蜘蛛/机器人如何做到这一点,是否有另一种工具可以补充mechanize在这种情况下? 我知道我可以反向工程的JavaScript来找出它做什么和他们模仿,但我想自动爬行,所以它不会实际,如果我第一次必须通过每个网站的Java

    0热度

    1回答

    我对如何搜索漫游器将抓取我的ajax站点有点困惑。 http://www.example.com包含3个环节 #!/ ABC #!/ XYZ #!/ 123 我已经包含在我的网页的头,使<meta name="fragment" content="!">机器人应使用以下URL访问这些链接,并使用prerender.io提供页面 http://www.example.com?_escaped_fra

    0热度

    1回答

    我的网站位于JavaScript中,并在固定HTML框架之上动态生成内容。要让Google知道我使用的内容,请使用_escaped_fragment_trick,并在服务器端跟踪何时提供固定内容而不是动态内容。只要它们与#!链接,这对所有页面都适用,对于除主页以外的所有页面都是如此。 我明显想要保持网页的最后没有丑陋的#!。 到目前为止,我能想到的唯一解决方案是使用固定内容而不是Ajax为每个人生

    0热度

    1回答

    就在一小时前,我开始了tailing apache日志文件(访问日志),从那以后,我注意到这个奇怪的用户代理,(无法找到它的Google官方文档)。 我手气怀疑这件事,因为我无法找到谷歌的这个用户代理网站的任何东西, ("Mozilla/5.0 (compatible; GoogleApps script; +http://script.google.com/bot.html)) 它爬行我们的

    0热度

    2回答

    有没有办法来检查页面是否返回500错误? Google刚刚从索引中删除了3000个我们的网页。实施了一些修复,但需要检查它是否工作。它只会在下周再次抓取该网站。

    2热度

    2回答

    我得到错误“网络无法访问:robots.txt文件无法访问”尝试添加我的网站在谷歌Webmaster tools ->http://www.hyponomist.com/ 时,您可以检查我的robots.txt at here和sitemap.xml at here 我有阅读其他职位,但无法解决/理解。是什么导致了这个问题。此外,我尝试使用Googlebot抓取工具下载网页,但得到同样的错误。 任

    0热度

    1回答

    我有点困惑这件事。 如果妳在我的网站访问的页面 /新闻/ 1 /这-是右 或 /新闻/ 1 /这 - 是 - 不正确 您仍然会得到相同的网页,因为脚本使用ID var获取内容,现在我想知道如果somone访问我的网站时会chan ge的新闻帖子的标题,会谷歌索引呢? 关于如何检查ID是否与TITLE匹配的任何想法,以及是否将它们重定向到正确的页面?

    -1热度

    2回答

    一个/404.shtml页面在搜索引擎优化(和什么视为由谷歌蜘蛛黑帽技术)方面,我应该避免重定向我404流量到我的主页? 新增这行我.htaccess文件 Redirect 301 /404.shtml /home.php

    1热度

    3回答

    我的PHP 5.3服务器正在使用use_only_cookies dans处理没有use_trans_id的会话,会话文件保存在专用目录中。 当Googlebot或Google Search Appliance机器人或任何其他非Cookie支持的浏览器抓取网站时,会为每个请求的页面创建不同的会话文件。恐怕这些文件将会使用大量的空间磁盘。 是否可以为特定的用户代理或不使用cookie的浏览器禁用会话

    0热度

    1回答

    在我正在处理的网站上,我们有一堆jquery,它根据选择选项中的选项重定向到页面的下一级。更改函数工作得很好,但谷歌网站管理员工具没有正确读取代码,并且在GWT中返回了一堆404错误。 var type = $('#select-type option:selected').attr('value') ; if (type == 'Masters' || type == 'Bachelors'