robots.txt

    0热度

    2回答

    我的网站使用上下文路径(例如:www.example.com/abc)。 robots.txt位于www.example.com/abc/robots.txt,我已在网络服务器中提供301重定向,以将www.example.com/robots.txt重定向至www.example.com/abc/robots.txt 。 我的问题是,搜索引擎能否读取robots.txt文件,因为它有301重定向

    1热度

    1回答

    我有子域“klient”用于测试的网站为我们的客户,我不希望被编入索引。我在robots.txt的设置(在我们网站的根目录)这样的: User-agent: * disallow: /subdom/klient/* 但我不知道,如果它真的有用,因为我现在已经找到了测试的网站在谷歌搜索结果... 哪里可能是问题,或者我们怎么能阻止谷歌和其他机器人索引此文件夹...? 谢谢你,通过你的子域的根目

    1热度

    1回答

    对于一个网站,我想要在/telecommandes路径上进行网络爬行。它的robots.txt: User-agent: * Disallow: *telecommande++* 我的问题是: 什么是加号在这种情况下,是什么意思? 是否适合抓取URL /telecommandes-box-decodeur.html?关于robots.txt文件?

    1热度

    2回答

    当我在谷歌搜索我的域名时,它会显示来自我的网站的多个https网址,因为google喜欢https,但出于特殊原因,我不想索引https/ssl版本。 如何避免这种情况,整个世界只通过htaccess写解决方案,但是大多数情况下使用nginx!如何解决这个问题: RewriteEngine On RewriteCond %{HTTPS} =on RewriteRule ^robots.txt$

    0热度

    1回答

    有人可以解释我,我应该怎么写一个robots.txt文件,如果我想所有的爬虫索引根和一些特定子域 User-agent: * Allow:/ Allow: /subdomain1/ Allow: /subdomain2/ 这是正确的?我应该把它放在哪里?在根(public_html)文件夹或每个子域文件夹中?

    1热度

    1回答

    我有我的网站的页面(作为示例)www.example.com/amp/amp-list.html。 当我验证它在https://search.google.com/search-console/amp,它抛出错误: Page cannot be reached This could be because the page is unavailable or blocked by robots.tx

    0热度

    1回答

    我运行一个ASP.NET MVC的网站托管在Azure和使用流量管理器作为负载平衡器,因此用户不仅可以通过像自定义域名访问网站foob​​ar.yourcompany.com,也终结点通过Azure的流量管理器一样foobar.trafficmanager.net提供。搜索引擎抓取工具也是如此。 是否有可行的解决方案,以隐藏爬虫的流量管理端点和揭露自定义域终点? P.S.我知道robots.txt

    0热度

    1回答

    所以我需要提取一些costumers的细节,并将其保存在一个新的数据库中所有我有它的唯一一个TXT文件,所以我们正在谈论5000 costumers或更多,txt文件它保存所有这样: first and last name NAME SURNAME zip country n. phone number mobile United Kingdom +1111111111 e-mai

    1热度

    1回答

    我们正试图在www.csselectronics.com上获取我们的图像,以便在google上正确编制索引。不幸的是,Google Search Console似乎只能为3张图片编制索引,而另外几个图片已经存在了很长时间。 问题可能是由于使用外部平台上传图片我的E-COM的平台,如: https://s3-eu-west-1.amazonaws.com/images.smoolis.com/460

    1热度

    2回答

    我生成了一个robots.txt文件,并且所有的代码都可以正常使用... 只有没有办法让换行符被尊重,为什么? 的TypoScript: # robots.txt robots = PAGE robots { typeNum = 201 config { disableAllHeaderCode = 1 additionalHeaders = Con