scrapy

    0热度

    1回答

    我是Scrapy/ProxyMesh的新手。 我对Proxymesh服务器的请求似乎正在工作,因为我在ProxyMesh网站上看到了我的带宽消耗,并且meta.proxy在我的日志中正确。 但是,当我在Scrapy中记录响应头时,我没有收到我应该收到的X-Proxymesh-IP。 这是我的代码。我究竟做错了什么? 这是我中间件 class Proxymesh(object): def __i

    1热度

    1回答

    我正在尝试使用scrapy和scrapy-splash获取请求状态代码,下面是spider代码。 class Exp10itSpider(scrapy.Spider): name = "exp10it" def start_requests(self): urls = [ 'http://192.168.8.240:8000/xxxx'

    0热度

    1回答

    我目前正在构建我的第一个scrapy项目。目前我正在尝试从HTML表格中提取数据。这里是我的抓取蜘蛛至今: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from digikey.items import DigikeyIte

    0热度

    1回答

    嗨我试图抓取有输入文本的网站。每当我点击输入文本时,都会有输入文本值的下拉建议。它不在选择标签上。 这些建议的值是在div标签元素中。有近200个div /建议。 我所做的是使用scrapy使用xpath/css选择器从中刮除。当我使用“查看页面源代码”而不是“查看元素”查看代码时,我发现这200个div实际上是隐藏的。 请帮忙。谢谢

    0热度

    2回答

    我已经遇到了一个问题,我已经把一个蜘蛛放在一起。我试图从this site的抄本中找出各行文字以及相应的时间戳,并找到了我认为合适的选择器,但运行时,蜘蛛的输出只是最后一行和时间戳。我见过一些其他类似问题的人,但还没有找到解决我的问题的答案。 这里是蜘蛛: # -*- coding: utf-8 -*- import scrapy from this_american_life.items i

    0热度

    2回答

    我正在学习scrapy(与飞溅)和建立一个蜘蛛来从js启用页面刮取结果。我的蜘蛛工作,并返回js页面的结果。然而,它并没有从这个链接https://www.zara.com/us/en/bejewelled-appliqu%C3%A9-dress-p07854034.html?v1=4818592&v2=733885 xpath used: //*[contains(concat(" ", @cl

    1热度

    1回答

    我刮一个XML站点地图包含特殊字符,如é,导致 ERROR: Spider error processing <GET [URL with '%C3%A9' instead of 'é']> 我如何获得Scrapy保持原来的网址不变,即用它的特殊性格? Scrapy == 1.3.3 的Python 3.5.2 == (我需要坚持这些版本) 更新:每https://stackoverflow.

    0热度

    2回答

    我有一个包含json文本的字符串。 我把它转换成原始字符串由 json_raw = "%r"%json_all 然后我尝试加载它 json_dict = json.loads(json_raw) 给我的错误JSONDecodeError: Expecting value: line 1 column 1 (char 0) 要调试我做print(json_raw),并在控制台输出给我: '{

    0热度

    1回答

    这是我的网页scrapy的简单结构。 import scrapy,urllib.request class TestSpider(scrapy.Spider): def __init__(self, *args, **kw): self.timeout = 10 name = "quotes" allowed_domains = ["finance.

    3热度

    4回答

    我想从雅虎财经获得scrapy的最高历史价格数据。 这里是fb(facebook)最大历史价格数据的网址。 https://query1.finance.yahoo.com/v7/finance/download/FNMA?period1=221115600&period2=1508472000&interval=1d&events=history&crumb=1qRuQKELxmM 为了写一