scrapy

-1热度

1回答

import scrapy class Pttscrapper2Spider(scrapy.Spider): name = 'PTTscrapper2' allowed_domains = ['https://www.ptt.cc'] start_urls = ['https://www.ptt.cc/bbs/HatePolitics/index.html/']

-1热度

1回答

如何使用Scrapy下载我所有的Quora答案？

我试图使用Scrapy来下载我的Quora答案，但我似乎无法下载我的页面。使用简单 scrapy shell 'http://it.quora.com/profile/Ferdinando-Randisi' 返回该错误 2017-10-05 22:16:52 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: quora) 2017-10-

0热度

1回答

scrapy如何自定义延迟

我想做一个自定义的延迟，因为全局延迟在我的代码中是低效的。因为我不知道我在寻找什么在这个线程：scrapy is slow (60 pages/min) 我决定最好把它作为一个新的问题。基本上我有： amazon request API request API request 如果我使用DOWNLOAD_DELAY = 1 它就像有： amazon request delay(1)

-2热度

3回答

如何使用Selenium在scrapy中生成片段URL？

我对网络剪辑的了解不多我已经开始为我找到一个非常复杂的问题，我会尽力解释我所能做到的最好的（因此，我已经开放了我的文章中的建议或编辑）。我很早以前就开始使用网络抓取框架'Scrapy'来进行网络扫描，而且它仍然是我现在使用的那个。最近，我碰到了this website，发现我的框架（Scrapy）无法遍历页面，因为此网站使用Fragment URLs（＃）加载数据（下一页）。然后我提出了一个关于

0热度

2回答

scrapy.Reaquests（）回调不起作用

虽然有很多问题，但由于“dont_filter”参数，大多数人遇到此问题，我通过了这个参数“dont_filter = True”，但我的自定义解析生成器仍然没有工作，下面是我的代码（第三个解析器“parse_spec”从来没有被调用，“parse_models_follow_next_page”在被parse（）调用时工作得很好，但当它需要转到下一页时它不能调用自己）： import scra

0热度

1回答

Scrapy不产生结果（爬行0页）

试图找出scrapy如何工作并使用它来查找有关论坛的信息。 items.py import scrapy class BodybuildingItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() pass spider.py from sc

0热度

1回答

pip在Python 3中安装python模块，但该模块有一个依赖包，需要Python 2

所以我是Python新手，学习它的好方法是做一些个人项目:)所以我在我的Windows，并使用virtualenv遏制环境所以，我需要使用杂凑模块： pip install scrappy Collecting scrappy Using cached Scrappy-0.3.0.alpha.4.tar.gz Collecting guessit (from scrappy)

0热度

1回答

将尾随逗号添加到列表中，开箱即用

假设我有一个列表alist，如何添加尾随逗号？ alist = [1,2,3,4,5,...,100] list_wanted = [1,2,3,4,5....,100,] 我需要一个拖尾逗号来将列表拟合到scrapy中，如果有尾随逗号，它只能识别最后一个元素。欣赏帮助。

0热度

1回答

scrapy如何屈服于现有物体mongodb

我想保存我的数据，编辑它，然后再次保存为同一个对象（它是一个字典？）。我用yield {'Id'：id，'Name'：name，'Age'：age}将数据保存为mongodb。之后，我用下面的代码读出的数据： import scrapy import pymongo from pymongo import MongoClient class example(scrapy.Spider)

-1热度

1回答

执行Scrapy时无法成功执行爬网，因为Scrapy在执行时

使用Python 2.7.10版。试图通过运行这个蜘蛛从网页中提取数据。当我安装scrapy并在我的mac终端上运行它时，我能够获得最初的数据。但是现在我无法获取数据，而是收到Traceback错误。 import scrapy class ShopcluesSpider(scrapy.Spider): name = 'shopclues' allowed_domains