robots.txt

    1热度

    2回答

    我想只允许目录/minsc的一个文件,但我想不允许目录的其余部分。在robots.txt 现在是这样的: User-agent: * Crawl-delay: 10 # Directories Disallow: /minsc/ ,我想允许的文件是/minsc/menu-leaf.png 我怕造成伤害,所以我dont'know如果我一定要使用: A) User-agent: * Cra

    1热度

    1回答

    我将Nutch 2.3设置为HBase作为后端,并运行包含Solr和Solr重复数据删除索引的爬网。 我最近注意到Solr索引包含不需要的网页。 为了让Nutch的忽略这些网页我设置以下元标记: <meta name="robots" content="noindex,follow"> 我参观了Apache的Nutch官方网站并说明如下: 如果你不这样做有权在您的服务器上编辑/robots.t

    0热度

    1回答

    我有一个Java程序,我正在编写一个接受URL作为参数的方法。有没有办法让方法返回与我传递的URL相关联的'robots.txt'文件(例如https://www.google.com/robots.txt)文件的副本? 在此先感谢!

    3热度

    1回答

    我已经浏览了有关此主题的几个问题,但我仍不确定是否正确。 我有一个php文件,它返回基于GET参数的xml/json响应。 http://someDomain.com/get.php?param=option1 谷歌已经收录了不少早已这些网址。 按我的理解,我可以通过添加someDomain.com/robots.txt索引上someDomain.com任何进一步的URL限制机器人: User

    -1热度

    1回答

    我目前正在运行一个Web服务,用户可以在其中浏览产品。该URL基本上只是/products/product_pk/。但是,我们不提供某些product_pks的产品,例如没有小于200.是否有阻止漫游器访问诸如/products/10/(因为它们将收到404)的URL? 谢谢您的帮助:)

    0热度

    1回答

    我有一个Magento安装,我想从Google抓取中排除隐私策略cookie限制模式页面。 在我的robots.txt我已经设置了下面的代码: Disallow: /enable-cookies/ Disallow: /customer-service/ Disallow: /privacy-policy-cookie-restriction-mode/ 当我analize我的网站SemR

    -2热度

    1回答

    我已经在public_html目录中的cPanel上传了一个新的robots.txt文件,但是当我通过像www.mydomian.com/robots.txt这样的url浏览它时,没有显示变化,也没有刷新新内容,我已经重新检查了所有内容,当我打开文件帮助时,我可以看到这些变化。我也清除了缓存。

    1热度

    1回答

    我有一个Tomcat服务器和几个Webapps(webapp1,webapp2,...)。 sitemap.xml和robots.txt文件应放在哪里? 我需要一个sitemap.xml文件和一个robots.txt文件为每个Webapp? 要我把分别与sitemap.xml下robots.txt: "where_tomcat_is_installed/webapps/webapp1/", , .

    0热度

    2回答

    是否可以将诸如'noodp'等SEO标签添加到robots.txt文件而不是使用<meta>标签?我试图避免与我们的CMS模板搞乱,但我怀疑我可能要... 我能尝试一些类似的... User-Agent: * Disallow: /hidden Sitemap: www.example.com noodp: 我认为的robots.txt优先于元标签?例如,对于noindex,抓取工具甚至不会看到相

    3热度

    2回答

    在挖掘Google robots.txt文件时,我注意到了一条我不熟悉的行。 以下代码在robots.txt文件中的含义是什么? Allow: /$ 是否 '$' 的含义任何从简单的说 Allow:/