scrapy-spider

0热度

1回答

我想从此网站上抓取数据：Website link。我想从特定日期下载所有PDF文件。虽然我已经设法从第一页获取文件并正确下载它们，但我无法更改日期，因此我可以返回到以前的日期并获取旧的PDF。我试过这行：在scrapy外壳中的scrapy.FormRequest.from_response(response,formxpath='//table//td//input[@type="text"

0热度

1回答

Scrapy代码使用python给一个网站而不是另一个网站的结果

当我执行此代码时，我得到了{[text1，author1，tag1]，[text2，author2，tag2]的形式结果。 ..} import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/',

0热度

1回答

Scrapy CSS选择器忽略标签，让文本只

我有以下HTML： <li class="last"> SKU: 483151 </li> 我能够使用来选择它们： SKU_SELECTOR = '.aaa .bbb .last ::text' sku = response.css(SKU_SELECTOR).extract_first().strip() 我怎样才能只数而忽略跨度。

0热度

1回答

Beautifulsoup 4个跨度方含“@”返回奇怪的结果

我是能够得到使用跨度的需要名单如下： attrs = soup.find_all("span") 这将返回跨度为键和值的列表： [ back camera resolution, 12 MP ] [ front camera resolution,

0热度

1回答

Scrapy登录失败

该网站确实有一个隐藏的身份验证令牌，但docs似乎暗示我不需要在此覆盖默认值，只需要传递用户名和密码即可。寻找在网络选项卡，我注意到，除了发布身份验证令牌之外，还有许多cookie。不知道我是否必须在那里做任何事情。我的代码，从不同的其他人的以前的尝试鹅卵石： The website does have a hidden authentication token, but the [docs]

0热度

1回答

如何使用Scrapy递归爬取子页面

因此，基本上我试图抓取一组具有一组类别的页面，刮取每个类别的名称，按照与每个类别相关联的子链接到具有一组子类别的页面，名称，然后按照每个子类别关联页面并检索文本数据。当时我想输出端的JSON文件格式有点像：类别1名子目录1名该子类别的页面子目录ň名数据数据此页种类n的名字从子类个n页等子目录1名数据最后，我希望能够用这个数据与ElasticSearch 我几乎有Scrapy任何

0热度

1回答

Scrapy在现场

合并输出我有一个Scrapy输出是这样的： [{'gender': 'women', 'name': 'NEW IN: CLOTHING', 'products': [{'name': 'Free People Cocoon Multi Way Neck Top', 'price': {'currency': 'GBP', 'outlet'

1热度

1回答

我的scrapy无法获得有效回复

当我使用scrapy从'http://quote.eastmoney.com/stocklist.html'获取一些股票信息时，我无法得到正确的回复。其实，当我运行它时，我什么也得不到。这里是stocks.py的内容： import scrapy from scrapy.selector import Selector import re class StocksSpider(scrap

0热度

2回答

无法从网站获取列表值

我从欲望网站获取所有详细信息，但无法获取某些特定信息，请为此指导我。 targeted domain: https://shop.adidas.ae/en/messi-16-3-indoor-boots/BA9855.html my code is response.xpath('//ul[@class="product-size"]//li/text()').extract() need to

0热度

1回答

使用Scrapy抓取网页数据

我使用scrapy来抓取justdial.com，但代码似乎不起作用。请帮我解决这个问题。我使用命令“scrapy crawl justdial -o items.csv -t csv”从终端运行它。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml impor