scrapinghub

    0热度

    1回答

    我有一个使用中间件通过pip安装的scrapy项目。 更具体地说scrapy-random-useragent。 设置文件 # - - 编码:UTF-8 - - # Scrapy settings for batdongsan project # # For simplicity, this file contains only settings considered important or

    1热度

    1回答

    我正在关注这个link中有关序列化程序的文档,我不确定是否缺少有关十进制序列化程序的文档?我定义一个项目,像这样一个scrapy领域: prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst()) scrapinhub店当这种价值,特别是包含逗号的数字我得到几个错误。 是否有任何标准的方法来串行化小数?

    0热度

    1回答

    如何停止将目标网址重定向至另一个具有验证码的网站确认页面? 这里是我下面的代码: yield scrapy.Request(meta={'handle_httpstatus_list': [302], 'dont_redirect': True, 'redirect_enabled':False},url=url, callback=self.profileCategoryPages) 现在它

    2热度

    2回答

    我有一个项目部署在Scrapinghub,我根本没有任何该代码的副本。 如何从Scrapinghub下载我的本地主机上的整个项目代码?

    0热度

    1回答

    蜘蛛停在爬网中间(7小时后,20K请求)。工作状态是“失败”。即使日志中没有ERROR消息。日志看起来像代码刚刚停止在特定的代码行范围上运行,没有报告任何错误。它发生在spider_idle方法覆盖中。日志已启用,我可以看到所有前面的INFO消息指示蜘蛛正常运行。我不知道如何在scrapinghub日志中启用DEBUG消息。 检查内存消耗 - 它是稳定的,至少在短暂的测试中,现在正在等待长期运行结

    1热度

    1回答

    我正在使用scrapy +飞溅插件,我有一个按钮,通过ajax触发下载事件,我需要获取下载的文件,但不知道如何。 我的LUA脚本是一样的东西从我的蜘蛛这个 function main(splash) splash:init_cookies(splash.args.cookies) assert(splash:go{ splash.args.url,

    1热度

    1回答

    我正在使用ScrapingHub API,并且正在使用shub来部署我的项目。然而,该项目的结果是,如下所示: 不幸的是,我需要按以下顺序 - >标题,发布日期,描述,链接。我怎样才能得到输出到每个项目类的顺序? 下面是我的蜘蛛很短的例子: import scrapy from scrapy.spiders import XMLFeedSpider from tickers.items im

    2热度

    1回答

    在尝试自行解决此问题后,我需要一些帮助或向正确方向推动。 我在Scrapinghub上编写并部署了Scrapy蜘蛛。该蜘蛛收集一些数据,并在完成后将该数据保存到远程Microsoft SQL Server。我使用SQLAlchemy作为ORM和Pyodbc作为驱动程序。 为了连接到一个数据库中蜘蛛的代码,我使用: params = quote_plus('DRIVER={ODBC Driver 1

    0热度

    1回答

    我有一只蜘蛛会按时运行。蜘蛛输入基于日期。从上次刮擦日期到今天的日期。所以问题是如何在Scrapy项目中保存最后一次刮擦的日期?有一个选项可以使用pkjutil模块从scrapy设置获取数据,但是我没有在文档中找到关于如何在该文件中写入数据的任何参考。任何想法?也许是一种选择? P.S.我的另一种选择是为此使用一些免费的远程MySql数据库。但如果简单的解决方案可用,看起来更多的工作。 impor

    0热度

    1回答

    我试图将我的scratch数据放在云上的firebase帐户上,但是当我运行蜘蛛时,我得到了这个ImportError。我尝试制作新项目,甚至在Python的特定版本上重新安装了firebase和shub,但没有任何帮助。 蜘蛛在我的机器上完美运行,并且不显示任何ImportErrors。 这里是错误日志。 Traceback (most recent call last): File