web-crawler

1热度

2回答

使用这个语法： x('http://www.viadeo.com/fr/company/unicef', '.page-content', [{ img:'[email protected]', bio:'.pan-desc-description', org:'.pan-desc-footer-element @element-value',

0热度

1回答

Web Crawler --- TypeError：强制为Unicode：需要字符串或缓冲区，找不到类型

我是新来的python。我已经制作了我自己的网络爬虫，这个爬虫应该是为了练习Yelp。我不断收到这个错误，似乎无法让过去的第一页： Traceback (most recent call last): File "<stdin>", line 1, in <module> File "<stdin>", line 26, in yelpSpider TypeErr

3热度

2回答

使用python脚本从informer.com抓取和下载文件

为了研究目的，我需要构建一组良性程序。首先，我需要从http://downloads.informer.com获得这些程序。为此，我编写了一个python脚本，用于迭代每个下载页面并将下载链接提取到列表中。之后，脚本使用这些链接下载程序（这些程序是exe，msi或zip文件）。不幸的是，在这一步，脚本运行时出现错误，指出（AttributeError：'Request'对象没有'decode'属性

2热度

1回答

使用硒：如何在Python中关闭驱动程序后保持登录

我想让我的Whatsapp网络（web.whatsapp.com）登录，第二次在chrome驱动程序上打开Whatsapp网页。以下是我基于Python的代码需要你的帮助。 from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_path = r"chromedr

1热度

1回答

如何使用PHP解析robots.txt文件？

我想解析一个网站的robots.txt文件（其中Facebook是一个随机的网址）。我想摆脱任何不适合用户代理的行（如本例中的前两个）。所以也许摆脱任何不以A，D或U开头的行？我也想让每个用户代理自己的关联数组的标题是用户代理即得到所有的谷歌机器人允许和不允许的网址我将print_r $ arr [googleBot]。这是我的代码到目前为止！ <?php //URl to start

0热度

1回答

NodeJS - 请求一个页面以后加载的信息

我正在做一个与nodeJS的网络爬虫，它的工作，它调用页面，我使用cheerio转换为JQuery，并调用标签。现在我试图调用页面的注释，但问题是，我想要的标记是在Ajax GET请求几秒钟后加载的。而且我做出的请求承诺找不到这个特定的标签，因为它稍后加载。有一些方法可以找到标签加载？代码： /* Requires */ var rp = require('request-promise'

-1热度

2回答

Scrapy：停止爬行一个域，如果条件满足

跳到下一个我喜欢写BFO宽履带，其执行以下操作：开始第一URL 试图找到链接到Impressum RegEx: '.*mpressum.*'（翻译：印记）检查是否符合某些条件。在我的情况下，如果邮政编码在一定范围内如果满足条件继续爬行页面如果不符合条件，请停止对该域进行爬网以将其从未来爬网列入黑名单。与未来域继续我怎样才能实现Scrapy这种行为？基本上我这样做是因为我想回答以下问题

0热度

2回答

调整Storm-Crawler以充分利用可用资源

我有一个完全专用于基于Storm-Crawler的履带的节点。我有20个双核CPU，130 Gb的RAM和10Gb/s以太网连接。我将我的拓扑缩小为：CollapsingSpout - > URLPartitionerBolt - > FetcherBolt。喷口正在从Elasticsearch索引（大约50 M记录）读取。 Elasticsearch配置有30 GB RAM和2个碎片。我使用

-1热度

1回答

在scrapy中选择文件名

我有一个url列表，每个url都与一个唯一的ID相关联。我想使用scrapy下载每个URL并将它们保存在一个以其唯一ID命名的文件中。我通过一个基本的教程去了，有下面的代码，但不知道我怎样才能获得UID，同时节省解析后的文件 - import scrapy import json class QuotesSpider(scrapy.Spider): name = "quotes"

0热度

2回答

在Apache Nutch 2.3.1中选取的外部URL获取

我有特定主题的小种子。我希望Nutch只应遵循预期涉及相关主题的那些外部链接（它可能仅仅是一种启发式）。我该怎么做。如果我必须写一些插件，那么扩展点应该是什么。有没有可用的例子。