我是非常好 begginer,所以放心吧。 我用google搜索了如何修复它,但是我得到的每个答案都是针对Xpath,而我正在使用CSS。如何删除 r n,空格并启用Scrapy css中的口音?
我下面这个教程https://hexfox.com/p/scrape-your-cinemas-listings-to-get-a-daily-email-of-films-with-a-high-imdb-rating/并达成这一点:
import scrapy
class CinemaSpider(scrapy.Spider):
name = "cinema"
allowed_domains = ['cineroxy.com.br']
start_urls = [
'http://cineroxy.com.br/programacao-brisamar',
]
def parse(self, response):
movie_names = response.css('.titulo p::text').extract()
for movie_name in movie_names:
yield {
'name': movie_name
}
心中已经正确地执行,因此将虎视眈眈的信息,并创建一个JSON文件:
C:\Python27\Scripts>scrapy runspider cinema_scraper.py -o movies.json
但结果却是这样的:
[
{"name": "\r\n A Bailarina\r\n "},
{"name": "\r\n Assassins Creed - O Filme\r\n "},
{"name": "\r\n Cinquenta Tons Mais Escuros\r\n "},
{"name": "\r\n Minha M\u00e3e \u00e9 uma Pe\u00e7a 2\r\n "},
{"name": "\r\n Moana - Um Mar de Aventura\r\n "},
{"name": "\r\n Os Penetras 2 - Quem D\u00e1 Mais?\r\n "},
{"name": "\r\n Quatro Vidas de Um Cachorro\r\n "},
{"name": "\r\n Resident Evil 6: O \u00daltimo Cap\u00edtulo\r\n "},
{"name": "\r\n xXx: Reativado\r\n "}
]
现在,我有3个问题需要解决输出/额外提示:\ r \ n,尝试提取突出的单词时出现大的空白区域和错误(生化危机6:原始图像为生化危机6:破坏图像)。
一件事这个网站的源代码都在与他人的心中已经研究不同的是,它写的标题前下降一行:
<a href='../filme/resident-evil-6-o-ultimo-capitulo'>
<img id="cphConteudo_rptBusca_imgFilme_7" title="Resident Evil 6: O Último Capítulo" class="img" src="http://www.cineroxy.com.br/suiteinstitucional/arquivos/filmes/040920161914411.jpg" />
<div class="titulo">
<p>
Resident Evil 6: O Último Capítulo
</p>
</div>
<div class="passar-mouse">
clique para ver os horários <img src="Arquitetura/Imagens/Icones/drop.png" alt="" />
</div>
</a>
很抱歉的长期职位和可能的巨大的愚蠢的错误。 在此先感谢。
请注意,在'JSON输出\ uXXXX'序列是不是一个错误,它_is_有效的JSON语法,代表非ASCII字符的简单方法之一。一个JSON兼容的阅读器/程序可以很好地理解那些'\ uXXXX'序列;另一方面,读者可能不会。在其中一个答案中提到的“FEED_EXPORT_ENCODING”设置将写入UTF-8编码字符,而不会出现\ uXXXX转义。许多文本编辑器/浏览者都会将JSON文本文件的'\ xc3 \ x9a'序列('\ u00da'的UTF-8编码)解码为**Ú**,但它仍然被解释。人们仍然很难理解'\ xc3 \ x9a'。 –
我不认为它不是一个错误,程序可以读取它。顺便说一句,我使用记事本++来打开JSON。我应该使用其他文本编辑器吗? – Lestat