google-crawlers

0热度

1回答

有人可以解释我，我应该怎么写一个robots.txt文件，如果我想所有的爬虫索引根和一些特定子域 User-agent: * Allow:/ Allow: /subdomain1/ Allow: /subdomain2/ 这是正确的？我应该把它放在哪里？在根（public_html）文件夹或每个子域文件夹中？

0热度

1回答

没有加载Prerender.io脚本正确

我有两个JavaScript文件： vendor.js - 在那里我有angular.js和另一个库; app.js - 自己的代码。但是，当我加载它prerender没有打开我的网页。当我连接到一个文件 - 一切OK。我该如何解决？

1热度

1回答

如何抓取多个关键字与蟒蛇icrawler

我有很多关键词的数组： array = ['table', 'chair', 'pen'] 我要抓取来自谷歌图片搜索5个图像的每个项目我array与蟒蛇icrawler 这里是初始化： from icrawler.builtin import GoogleImageCrawler google_crawler = GoogleImageCrawler( parser_threads

0热度

1回答

如何从谷歌搜索结果页面获取完整的HTML内容

我是网络爬虫的新手，感谢您的帮助。我需要执行的任务是从Google搜索中获取完整的返回HTTP响应。当谷歌在浏览器中的搜索关键字搜索，在返回页面中，有一章节：相关搜索XXXX（XXXX为搜索词）我需要提取网页的这一部分页。从我的研究中，目前大多数关于谷歌爬行的软件包都无法提取这部分信息。我试图使用的urllib2，用下面的代码： import urllib2 url = "https://w

1热度

1回答

对不存在的URL检索500

Google抓取会为不存在的页面引发服务器错误，这些页面是从不存在的页面链接的。例如： http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/page-506 从链接： http://www.dailyforex.com/forex-technical-analysis/forex-blog-reviews/p

0热度

1回答

角JS动态抓取工具无法正常工作

当我使用meta标签的静态数据共享我的web应用程序显示  <meta name="author" content="{{ author.name }}" /> <meta property="og:description" content="{{ title.description }}" /> <meta proper

0热度

1回答

谷歌新闻爬虫返回的结果与网址，标题和简报

我是新来抓取，我使用Python 3.X.目前我正在练习抓取谷歌新闻的新鲜开始，但我遇到了一些与我的代码问题（代码运行，但没有返回任何东西）。我想要代码抓取谷歌新闻查询和返回结果与网址，标题和简报出现在结果中。非常感谢您的时间。我的代码如下： import sys import urllib import requests from bs4 import BeautifulSoup im

0热度

1回答

谷歌新闻履带翻页

继续以前的工作来抓取关于查询的所有新闻结果并返回标题和网址，我正在细化抓取工具以获取Google新闻中所有页面的所有结果。目前的代码似乎只能返回第一页Googel新闻搜索结果。将不胜感激知道如何获得所有网页结果。非常感谢！我下面的代码： import requests from bs4 import BeautifulSoup import time import datetime fr

-1热度

2回答

Scrapy：停止爬行一个域，如果条件满足

跳到下一个我喜欢写BFO宽履带，其执行以下操作：开始第一URL 试图找到链接到Impressum RegEx: '.*mpressum.*'（翻译：印记）检查是否符合某些条件。在我的情况下，如果邮政编码在一定范围内如果满足条件继续爬行页面如果不符合条件，请停止对该域进行爬网以将其从未来爬网列入黑名单。与未来域继续我怎样才能实现Scrapy这种行为？基本上我这样做是因为我想回答以下问题

1热度

1回答

角2（非通用）应用程序的SEO

我有一个部署的角2应用程序在生产中很好地工作。问题是网络爬虫实际上不能抓取和索引整个网站，我只看到主要索引页面/路由被抓取。仅供参考，我的应用程序不使用通用角度。无论如何，我可以使网站抓取和索引的搜索引擎机器人没有通用的角度。如果不是我如何在现有的常规角度2项目中使用通用角度。谢谢！