robots.txt

0热度

2回答

我有多个门户DotNetNuke的安装： domain1.com domain2.com domain3.com等服务器是32个演出，8个核心。我有一个robots.txt文件。当谷歌开始爬行时，我发现多个谷歌IP地址的CPU时间达到100％。根据IIS的说法，它每次尝试抓取的网址都是/lmm-product-service/elmah.axd/detail?id=af51e96f-d0cd-

0热度

1回答

如何停止索引链接与包含子文件夹

我在我的网站应该指数谷歌真正的链接，（例如）： www.mywebsite.com/title,id,sometext,sometext 不料谷歌搜索索引我的网站的子文件夹whitch不应该例如发生： www.mywebsite.com/include/title,id,sometext,sometext www.mywebsite.com/img/min/title,id ，sometext，s

0热度

1回答

将Drupal robots.txt禁止仍记录在Apache日志文件？

我在Drupal网站的特定代理中为robots.txt设置了一些规则。我有一个问题。当这个代理试图访问网站时，这个访问是否仍然会记录在我的apache access_log文件中？

0热度

1回答

设置为NOINDEX谷歌的结构化数据

我用我的网站上的结构化数据的多个块： <script type="application/ld+json"> { "@context": "http://schema.org", "@type": "Event", "name": "Something", "url": "http://www.example.com/?id=123" }

-1热度

1回答

不允许所有子robots.txt的格式URLsbut不是根URL本身

我的应用程序的URL像下面 http://example.com/app/1 http://example.com/app/2 http://example.com/app/3 ... http://example.com/app/n 现在我想阻止抓取这些网址，但不是http://example.com/app 我怎么可以这样使用robots.txt

-1热度

1回答

禁止搜索带有机器人的网站上的链接txt

我想禁止我的网站上的搜索链接robots.txt。后，我点击搜索提交按钮，我的URL看起来像： example.com/searching?k=something 我怎么能写这个URL地址到我的robots.txt文件？我的robots.txt文件看起来是这样的： User-agent: * Disallow: /admin_folder Sitemap: https://www.do

0热度

2回答

如何在robots.txt中添加`nofollow，noindex`所有页面？

我想在制作过程中将nofollow和noindex添加到我的网站中。客户要求我使用这些规则。我知道 <meta name="robots" content="noindex,nofollow"> 但我只能访问到robots.txt文件。有谁知道我可以使用noindex, nofollow规则通过robots.txt文件的正确格式吗？

0热度

1回答

域名别名，sitemaps.xml和robots.txt

我正在寻找添加引用多个域名别名的网站地图，这是从Laravel框架内分离出来的逻辑。在我的robots.txt文件中 - 但我不太确定这样做的正确方法。 Sitemaps的存在和存在和正确，但只是不确定的格式谷歌预计...所以真正寻找基于搜索引擎优化的答案，而不是实现这一目标。我想我能做到这一点为robots.txt 即 Sitemap: https://www.main-domain.com/

0热度

1回答

如何排除抓取工具以使用robots.txt为我的网站的特定页面编制索引？

我想这对我的根robots.txt： User-agent: * Allow:/ Disallow: /*&action=surprise Sitemap: https://example.com/sitemap.php 我想从检索网址像排除：从access.log文件我再次看到一些机器人击中这些网址。我做错了什么或只是有些机器人没有跟随我的robots.txt设置？

1热度

1回答

使用wget或curl来测试网站的.htaccess + robots.txt

我想调试我的网站的.htaccess + robots.txt，我想用cURL或wget尝试访问使用robots.txt阻止的文件，或者应该通过的.htaccess重定向到另一个位置的网页我已经在我的robots.txt以下尚未 User-agent: * Disallow: /wp/wp-admin/ ，我仍然能够抓取 wget的 $ wget http://xxxx.com/wp/wp