scrapy

    0热度

    1回答

    我想放弃以下网站https://www.shopee.sg: ~$ scrapy shell https://www.shopee.sg 但我得到了一个404错误: [s] request <GET https://www.shopee.sg> [s] response <404 https://shopee.sg/> 虽然urllib2的可以打开此相同的URL: import urll

    -1热度

    1回答

    因此,我设法编写了一个蜘蛛,从这个site中提取“视频”和“英文抄本”的下载链接。看着cmd窗口,我可以看到所有正确的信息都被刮掉了。 我遇到的问题是,输出CSV文件只包含了“视频”链接,而不是“英语成绩单”链接(即使你可以看到它在cmd窗口被刮掉)。 我已经尝试了其他帖子的一些建议,但他们都没有工作。 下面的图片是我想怎么输出看起来像: CSV Output Picture 这是我目前的蜘蛛代码

    0热度

    1回答

    我想要获取的网址数量在SitemapSpider之间。我试图覆盖start_requests方法,但它打印0.我有一个sitemap_url其中包含数千个网址。我想得到这些网址的数量。 这是我尝试过的,但我想从站点地图的Url不在start_urls。 class MainSpider(SitemapSpider): name = 'main_spider' allowed_d

    1热度

    1回答

    I am scraping manulife 我想进入下一个页面,当我检查了“下一个”我得到: <span class="pagerlink"> <a href="#" id="next" title="Go to the next page">Next</a> </span> 还有什么是正确的做法遵循? # -*- coding: utf-8 -*- import scrapy

    0热度

    1回答

    请你能帮助我吗?我被困在试图理解为什么闪没了渲染HTML响应: 首先,成功地与scrapy登录FormRequest 然后SplashRequest,装在端点 但是,当我打印response.body,该页面未呈现。 额外信息: - 页面向下滚动时添加更多结果。 - page.com并不是真正的网页。 感谢先进! import scrapy from scrapy_splash impo

    0热度

    1回答

    我正在学习scrapy,我有一些小项目。 def parse(self, response): links = LinkExtractor().extract_links(response) for link in links: yield response.follow(link, self.parse) if (some_condition):

    1热度

    1回答

    我试图确保日志文件不会超过1048576字节。由于Scrapy使用python logging模块,我试图将Scrapy的默认FileHandler更改为RotatingFileHandler。 我在Scrapy文档或设置中找不到关于此的任何内容。我的想法是重写__init__()蜘蛛的方法(我有一个蜘蛛)。 def __init__(self, *a, **kw): self.logg

    0热度

    1回答

    我想放弃使用Python的废材工具网站蟒蛇零碎的输出。 我能够放弃数据,但 我想一个附加字段添加到输出中 像一个“序列号”:“3001”, 每个产品它下脚料 串行ID应该增加通过如图1所示,像3002,3003,3004 ............. def parse_dir_contents(self,response): cat = response.meta['cat']

    0热度

    1回答

    余米试图否认局部URLS如下: rules = ( Rule(LinkExtractor(deny=(r'\/es\/')), follow = True) ) 但是这个失败。尝试其他正则表达式,但不是运气。 rules = ( Rule(LinkExtractor(deny=(r'\/es\/*.*')), follow = True) ) 本质上我只对英文版资源感兴

    0热度

    1回答

    我是Scrapy的新手,目前我正在尝试编写一个CrawlSpider来抓取Tor darknet上的论坛。目前我CrawlSpider代码: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class HiddenAnswer