scrapy

    3热度

    2回答

    我目前正在编写一个web爬虫(使用python框架scrapy)。 最近我不得不实现一个暂停/恢复系统。 我实施的解决方案是最简单的方法,基本上,它们在计划时存储链接,并在它们实际存在时将其标记为“已处理”。 因此,当恢复蜘蛛时,我能够获取这些链接(显然,存储的内容比只包含URL,深度值,链接所属的域等等要多一些),至今一切正常好。 现在,我刚刚使用了一个mysql表来处理这些存储操作,主要是为了

    2热度

    1回答

    当我从Scrapy教程中我得到这些错误信息运行蜘蛛: File "C:\Python26\lib\site-packages\twisted\internet\base.py", line 374, in fireEvent DeferredList(beforeResults).addCallback(self._continueFiring) File "C:\Python26\lib\s

    1热度

    2回答

    从Scrapy教程: DOMAIN_NAME:标识蜘蛛。它必须是唯一的,也就是说,您不能为不同的蜘蛛设置相同的域名。 这是否意味着domain_name必须是一个有效的域名,如 DOMAIN_NAME = 'example.com' 或者,我可以说出 domain_name = 'ex1' 的问题是我有一个蜘蛛,与域名 domain_name = 'whitecase.com' 现在,我创

    1热度

    2回答

    我一直在试图写这个蜘蛛几个星期,但没有成功。什么是我在Python代码的最佳方式是: 1)初始URL:从最初的网址http://www.whitecase.com/Attorneys/List.aspx?LastName=A 2)拿起这些URL与此正则表达式: hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel

    -1热度

    5回答

    由于没有到目前为止的工作,我开始 python scrapy-ctl.py startproject Nu 一个新的项目我也跟着教程完全相同,并且创建的文件夹,一个新的蜘蛛 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkEx

    1热度

    1回答

    在Scrapy教程存在BaseSpider的这个方法: make_requests_from_url(url) 接收的URL和 返回一个请求对象(或 请求的列表的方法对象)刮。 此方法被用来构建在 start_requests的 初始请求()方法,并且是 通常用于URL转换到 请求。 除非被覆盖,这个方法返回 请求与解析()方法 他们的回调函数,并启用 dont_filter参数(见 Reques