google-crawlers

    0热度

    1回答

    有人可以解释我,我应该怎么写一个robots.txt文件,如果我想所有的爬虫索引根和一些特定子域 User-agent: * Allow:/ Allow: /subdomain1/ Allow: /subdomain2/ 这是正确的?我应该把它放在哪里?在根(public_html)文件夹或每个子域文件夹中?

    0热度

    1回答

    我有两个JavaScript文件: vendor.js - 在那里我有angular.js和另一个库; app.js - 自己的代码。 但是,当我加载它prerender没有打开我的网页。 当我连接到一个文件 - 一切OK。 我该如何解决?

    1热度

    1回答

    我有很多关键词的数组: array = ['table', 'chair', 'pen'] 我要抓取来自谷歌图片搜索5个图像的每个项目我array与蟒蛇icrawler 这里是初始化: from icrawler.builtin import GoogleImageCrawler google_crawler = GoogleImageCrawler( parser_threads

    0热度

    1回答

    我是网络爬虫的新手,感谢您的帮助。我需要执行的任务是从Google搜索中获取完整的返回HTTP响应。当谷歌在浏览器中的搜索关键字搜索,在返回页面中,有一章节: 相关搜索XXXX(XXXX为搜索词) 我需要提取网页的这一部分页。从我的研究中,目前大多数关于谷歌爬行的软件包都无法提取这部分信息。我试图使用的urllib2,用下面的代码: import urllib2 url = "https://w

    1热度

    1回答

    Google抓取会为不存在的页面引发服务器错误,这些页面是从不存在的页面链接的。 例如: http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/page-506 从链接: http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/p

    0热度

    1回答

    当我使用meta标签的静态数据共享我的web应用程序显示 <!-- Dynamic data --> <meta name="author" content="{{ author.name }}" /> <meta property="og:description" content="{{ title.description }}" /> <meta proper

    0热度

    1回答

    我是新来抓取,我使用Python 3.X.目前我正在练习抓取谷歌新闻的新鲜开始,但我遇到了一些与我的代码问题(代码运行,但没有返回任何东西)。我想要代码抓取谷歌新闻查询和返回结果与网址,标题和简报出现在结果中。 非常感谢您的时间。我的代码如下: import sys import urllib import requests from bs4 import BeautifulSoup im

    0热度

    1回答

    继续以前的工作来抓取关于查询的所有新闻结果并返回标题和网址,我正在细化抓取工具以获取Google新闻中所有页面的所有结果。目前的代码似乎只能返回第一页Googel新闻搜索结果。将不胜感激知道如何获得所有网页结果。非常感谢! 我下面的代码: import requests from bs4 import BeautifulSoup import time import datetime fr

    -1热度

    2回答

    跳到下一个我喜欢写BFO宽履带,其执行以下操作: 开始第一URL 试图找到链接到Impressum RegEx: '.*mpressum.*'(翻译:印记) 检查是否符合某些条件。在我的情况下,如果邮政编码在一定范围内 如果满足条件继续爬行页面 如果不符合条件,请停止对该域进行爬网以将其从未来爬网列入黑名单。 与未来域继续 我怎样才能实现Scrapy这种行为? 基本上我这样做是因为我想回答以下问题

    1热度

    1回答

    我有一个部署的角2应用程序在生产中很好地工作。问题是网络爬虫实际上不能抓取和索引整个网站,我只看到主要索引页面/路由被抓取。仅供参考,我的应用程序不使用通用角度。无论如何,我可以使网站抓取和索引的搜索引擎机器人没有通用的角度。如果不是我如何在现有的常规角度2项目中使用通用角度。 谢谢!