scrapy-spider

    0热度

    1回答

    我想从此网站上抓取数据:Website link。 我想从特定日期下载所有PDF文件。 虽然我已经设法从第一页获取文件并正确下载它们,但我无法更改日期,因此我可以返回到以前的日期并获取旧的PDF。 我试过这行:在scrapy外壳中的scrapy.FormRequest.from_response(response,formxpath='//table//td//input[@type="text"

    0热度

    1回答

    当我执行此代码时,我得到了{[text1,author1,tag1],[text2,author2,tag2]的形式结果。 ..} import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/',

    0热度

    1回答

    我有以下HTML: <li class="last"> <span>SKU:</span> 483151 </li> 我能够使用来选择它们: SKU_SELECTOR = '.aaa .bbb .last ::text' sku = response.css(SKU_SELECTOR).extract_first().strip() 我怎样才能只数而忽略跨度。

    0热度

    1回答

    我是能够得到使用跨度的需要名单如下: attrs = soup.find_all("span") 这将返回跨度为键和值的列表: [ <span>back camera resolution</span>, <span class="even">12 MP</span> ] [ <span>front camera resolution</span>,

    0热度

    1回答

    该网站确实有一个隐藏的身份验证令牌,但docs似乎暗示我不需要在此覆盖默认值,只需要传递用户名和密码即可。 寻找在网络选项卡,我注意到,除了发布身份验证令牌之外,还有许多cookie。不知道我是否必须在那里做任何事情。 我的代码,从不同的其他人的以前的尝试鹅卵石: The website does have a hidden authentication token, but the [docs]

    0热度

    1回答

    因此,基本上我试图抓取一组具有一组类别的页面,刮取每个类别的名称,按照与每个类别相关联的子链接到具有一组子类别的页面,名称,然后按照每个子类别关联页面并检索文本数据。当时我想输出端的JSON文件格式有点像: 类别1名 子目录1名该子类别的页面 子目录ň名 数据 数据此页 种类n的名字从子类个n页 等 子目录1名 数据 最后,我希望能够用这个数据与ElasticSearch 我几乎有Scrapy任何

    0热度

    1回答

    合并输出我有一个Scrapy输出是这样的: [{'gender': 'women', 'name': 'NEW IN: CLOTHING', 'products': [{'name': 'Free People Cocoon Multi Way Neck Top', 'price': {'currency': 'GBP', 'outlet'

    1热度

    1回答

    当我使用scrapy从'http://quote.eastmoney.com/stocklist.html'获取一些股票信息时,我无法得到正确的回复。其实,当我运行它时,我什么也得不到。 这里是stocks.py的内容: import scrapy from scrapy.selector import Selector import re class StocksSpider(scrap

    0热度

    2回答

    我从欲望网站获取所有详细信息,但无法获取某些特定信息,请为此指导我。 targeted domain: https://shop.adidas.ae/en/messi-16-3-indoor-boots/BA9855.html my code is response.xpath('//ul[@class="product-size"]//li/text()').extract() need to

    0热度

    1回答

    我使用scrapy来抓取justdial.com,但代码似乎不起作用。请帮我解决这个问题。我使用命令“scrapy crawl justdial -o items.csv -t csv”从终端运行它。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml impor