scrapy

    -1热度

    1回答

    import scrapy class Pttscrapper2Spider(scrapy.Spider): name = 'PTTscrapper2' allowed_domains = ['https://www.ptt.cc'] start_urls = ['https://www.ptt.cc/bbs/HatePolitics/index.html/']

    -1热度

    1回答

    我试图使用Scrapy来下载我的Quora答案,但我似乎无法下载我的页面。使用简单 scrapy shell 'http://it.quora.com/profile/Ferdinando-Randisi' 返回该错误 2017-10-05 22:16:52 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: quora) 2017-10-

    0热度

    1回答

    我想做一个自定义的延迟,因为全局延迟在我的代码中是低效的。 因为我不知道我在寻找什么在这个线程:scrapy is slow (60 pages/min) 我决定最好把它作为一个新的问题。 基本上我有: amazon request API request API request 如果我使用DOWNLOAD_DELAY = 1 它就像有: amazon request delay(1)

    -2热度

    3回答

    我对网络剪辑的了解不多我已经开始为我找到一个非常复杂的问题,我会尽力解释我所能做到的最好的(因此,我已经开放了我的文章中的建议或编辑)。 我很早以前就开始使用网络抓取框架'Scrapy'来进行网络扫描,而且它仍然是我现在使用的那个。最近,我碰到了this website,发现我的框架(Scrapy)无法遍历页面,因为此网站使用Fragment URLs(#)加载数据(下一页)。然后我提出了一个关于

    0热度

    2回答

    虽然有很多问题,但由于“dont_filter”参数,大多数人遇到此问题,我通过了这个参数“dont_filter = True”,但我的自定义解析生成器仍然没有工作,下面是我的代码(第三个解析器“parse_spec”从来没有被调用,“parse_models_follow_next_page”在被parse()调用时工作得很好,但当它需要转到下一页时它不能调用自己) : import scra

    0热度

    1回答

    试图找出scrapy如何工作并使用它来查找有关论坛的信息。 items.py import scrapy class BodybuildingItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() pass spider.py from sc

    0热度

    1回答

    所以我是Python新手,学习它的好方法是做一些个人项目:)所以我在我的Windows,并使用virtualenv遏制环境 所以,我需要使用杂凑模块: pip install scrappy Collecting scrappy Using cached Scrappy-0.3.0.alpha.4.tar.gz Collecting guessit (from scrappy)

    0热度

    1回答

    假设我有一个列表alist,如何添加尾随逗号? alist = [1,2,3,4,5,...,100] list_wanted = [1,2,3,4,5....,100,] 我需要一个拖尾逗号来将列表拟合到scrapy中,如果有尾随逗号,它只能识别最后一个元素。 欣赏帮助。

    0热度

    1回答

    我想保存我的数据,编辑它,然后再次保存为同一个对象(它是一个字典?)。 我用yield {'Id':id,'Name':name,'Age':age}将数据保存为mongodb。 之后,我用下面的代码读出的数据: import scrapy import pymongo from pymongo import MongoClient class example(scrapy.Spider)

    -1热度

    1回答

    使用Python 2.7.10版。试图通过运行这个蜘蛛从网页中提取数据。当我安装scrapy并在我的mac终端上运行它时,我能够获得最初的数据。但是现在我无法获取数据,而是收到Traceback错误。 import scrapy class ShopcluesSpider(scrapy.Spider): name = 'shopclues' allowed_domains