scrapy

1热度

1回答

spider = cls（* args，** kwargs）TypeError：__init __（）得到了一个意外的关键字参数'_job'

尝试使用scrapyd使用硒和webdriver进行抓取时，蜘蛛与命令“scrapy crawl myspider”当我部署使用scrapyd，最后用卷曲和scrapyd API安排它它触发意想不到的关键字参数“_job” 这里是我的蜘蛛代码 #!G:\python-2-7 import scrapy from scrapy.spider import BaseSpider from sel

0热度

1回答

使用Xpath检索页面中所有选择的最大值

我想检索网页中存在的每个组合框的最大值，其中xpath。下面是一个包含多种组合框与选择的样本HTML： <label> <span class="invisible_spoken">Some choice</span> <select class="select_class"> <option value="0">0</option> <option value="1" > 1 </o

0热度

1回答

Scrapy - 如何分割这张表中的数据？

我试图从表格中抓取数据，但是表格数据似乎有相同的xpath。这里是表的一个例子 - http://www.hpft.nhs.uk/services/find-our-services/hertfordshire/cheshunt 而当我使用response.xpath('//td/text()').extract()它返回整个表。我想也许我可以使用绝对路径，例如response.xpath('/

0热度

1回答

scrapy startproject教程错误Mac OS

我是Python新手，一般编码。我正试图通过Scrapy构建一个刮板。我正试图在Mac OS 10.12.6上做到这一点。我尽可能按照说明操作（https://doc.scrapy.org/en/latest/intro/tutorial.html），但是当我拨打 scrapy start项目教程我在下面得到以下输出。解决这个问题并理解未来错误消息的最好方法是什么？谢谢！ File "/usr/

0热度

1回答

使用同一个蜘蛛来解析详细信息页面和分页页面

我有一个使用链接提取器来移动分页和解析详细信息页面的一个刮板，一切工作正常。示例代码如下： class SampleSpider(CrawlSpider): name = 'sample' start_urls = ['https://www.some-pagination-page.com'] rules = ( Rule(LinkExtractor(r

0热度

2回答

在Python中使用包含Unicode的报废的JSON数据

我使用Scrapy将一些JSON数据报废为名为“wotd-page-one.json”的文件。 JSON数据包含一些西班牙语单词，重音字母被转换为Unicode。我想加载这些数据并在同一个目录下使用python脚本进行制作。我正尝试将这些数据加载到列表中以分别处理每个JSON密钥和值。但是，由于我没有使用Unicode和JSON的丰富经验，所以我很难做到这一点。任何人都可以请帮助我找到一种方法，使

0热度

1回答

Scrapy - urlparse.urljoin的行为方式与str.join相同吗？

我试图在Scrapy蜘蛛中使用urlparse.urljoin来编译一个url列表。目前，我的蜘蛛没有返回，但没有发现任何错误。所以我试图检查我是否正确地编译了这些URL。我的尝试是使用str.join在闲置测试，如下图所示： >>> href = ['lphs.asp?id=598&city=london', 'lphs.asp?id=480&city=london', 'lphs.asp

1热度

1回答

如何修改url之前，在scrapy中？

我是新与scrapy，这是我第二次蜘蛛： class SitenameScrapy(scrapy.Spider): name = "sitename" allowed_domains = ['www.sitename.com', 'sitename.com'] rules = [Rule(LinkExtractor(unique=True), follow=True)

-1热度

1回答

如何启动与Scrapy相同格式的多个URL

我的Scrapy蜘蛛需要开始使用以下格式提供的网址抓取： https://catalog.loc.gov/vwebv/search?searchArg={$variable}&searchCode=GKEY%5E*&searchType=1&limitTo=none&fromYear=&toYear=&limitTo=LOCA%3Dall&limitTo=PLAC%3Dall&limitTo=TY

0热度

1回答

Scrapy CSV输出重复字段

我有一只蜘蛛（下图），我希望能够每10天左右通过一次Cron作业来运行它，但是，每次我第一次运行它时都会运行它。它重写字段，而不是仅将项目追加到CSV中的相应字段。我该如何做到这一点，以便无论我运行多少次，顶部只有一组字段标题，并且下面的所有数据都包含在其中。 import scrapy class Wotd(scrapy.Item): word = scrapy.Field()