scrapy

0热度

1回答

我想放弃以下网站https://www.shopee.sg： ~$ scrapy shell https://www.shopee.sg 但我得到了一个404错误： [s] request <GET https://www.shopee.sg> [s] response <404 https://shopee.sg/> 虽然urllib2的可以打开此相同的URL： import urll

-1热度

1回答

Python scrapy - 从回调到csv产生初始项目和项目

因此，我设法编写了一个蜘蛛，从这个site中提取“视频”和“英文抄本”的下载链接。看着cmd窗口，我可以看到所有正确的信息都被刮掉了。我遇到的问题是，输出CSV文件只包含了“视频”链接，而不是“英语成绩单”链接（即使你可以看到它在cmd窗口被刮掉）。我已经尝试了其他帖子的一些建议，但他们都没有工作。下面的图片是我想怎么输出看起来像： CSV Output Picture 这是我目前的蜘蛛代码

0热度

1回答

从蜘蛛（Scrapy）无法获取网址

我想要获取的网址数量在SitemapSpider之间。我试图覆盖start_requests方法，但它打印0.我有一个sitemap_url其中包含数千个网址。我想得到这些网址的数量。这是我尝试过的，但我想从站点地图的Url不在start_urls。 class MainSpider(SitemapSpider): name = 'main_spider' allowed_d

1热度

1回答

刮网页包含锚标记<a href = "#"> using scrapy

I am scraping manulife 我想进入下一个页面，当我检查了“下一个”我得到： <span class="pagerlink"> <a href="#" id="next" title="Go to the next page">Next</a> </span> 还有什么是正确的做法遵循？ # -*- coding: utf-8 -*- import scrapy

0热度

1回答

Splash的响应不会将html呈现为html

请你能帮助我吗？我被困在试图理解为什么闪没了渲染HTML响应：首先，成功地与scrapy登录FormRequest 然后SplashRequest，装在端点但是，当我打印response.body，该页面未呈现。额外信息： - 页面向下滚动时添加更多结果。 - page.com并不是真正的网页。感谢先进！ import scrapy from scrapy_splash impo

0热度

1回答

如何处理scrapy中的重复项？

我正在学习scrapy，我有一些小项目。 def parse(self, response): links = LinkExtractor().extract_links(response) for link in links: yield response.follow(link, self.parse) if (some_condition):

1热度

1回答

如何设置Scrapy项目的RotatingFileHandler（或最大尺寸）

我试图确保日志文件不会超过1048576字节。由于Scrapy使用python logging模块，我试图将Scrapy的默认FileHandler更改为RotatingFileHandler。我在Scrapy文档或设置中找不到关于此的任何内容。我的想法是重写__init__()蜘蛛的方法（我有一个蜘蛛）。 def __init__(self, *a, **kw): self.logg

0热度

1回答

想要一个字段添加到像一个序列号，其increament以1为每个产品报废

我想放弃使用Python的废材工具网站蟒蛇零碎的输出。我能够放弃数据，但我想一个附加字段添加到输出中像一个“序列号”：“3001”，每个产品它下脚料串行ID应该增加通过如图1所示，像3002，3003，3004 ............. def parse_dir_contents(self,response): cat = response.meta['cat']

0热度

1回答

scrapy否认本地化的URL

余米试图否认局部URLS如下： rules = ( Rule(LinkExtractor(deny=(r'\/es\/')), follow = True) ) 但是这个失败。尝试其他正则表达式，但不是运气。 rules = ( Rule(LinkExtractor(deny=(r'\/es\/*.*')), follow = True) ) 本质上我只对英文版资源感兴

0热度

1回答

如何使用我的scrapy CrawlSpider将相对路径转换为绝对路径？

我是Scrapy的新手，目前我正在尝试编写一个CrawlSpider来抓取Tor darknet上的论坛。目前我CrawlSpider代码： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class HiddenAnswer