<div class="features clearfix">
<span> <img src="/App_Theme/css/img/ico_area.png" width="36" height="36" class="imgvertical">
78,00 a 207,00 m²
</span>
<span><img src="/App_Theme/css/img/ico_bed.png" class="imgvertical"></i>
Desde
2
</span>
<span><img src="/App_Theme/css/img/ico_bath.png" width="36" height="36" class="imgvertical">
Desde
2
</span>
<span><img src="/App_Theme/css/img/ico_garaje.png" width="36" class="imgvertical" height="36">
Sin especificar
</span>
</div>
试图废除上述标签内的数据,但输出字符串只打印乱码,不正确的数据编码问题蟒蛇scriaping
我的代码
import requests
from bs4 import BeautifulSoup
page = requests.get('https://www.fincaraiz.com.co/oceana-52/barranquilla/proyecto-nuevo-det-1041165.aspx')
soup = BeautifulSoup(page.content, 'lxml')
box_2 = soup.find('div' ,'features clearfix')
box_2_1 = box_2.findAll('span')
box2 = []
for row2 in box_2_1:
box2.append(row2.text)
print (box2)
但它打印输出like below
['\ r \ n 78,00 a 207,00m²r \ n \ r \ n','\ r \ n \ r \ n Desde \ xa0 \ r \ n 2 \ r \ n \ r \ n \ r \ n','\ r \ n \ r \ n Desde \ xa \ r \ n 2 \ r \ n \ r \Ñ\ r \ n '' \ r \ n \ r \ n仙especificar \ r \ n \ r \ n“]
这里预期的输出是:
78,00一个207 00平方米 Desde 2 Desde 2 仙especificar
我已经尝试过UTF-8编码的代码一起,但它仍然给了相同的输出。我怎样才能避免unicode错误?
如果被查询者可能会喜欢的权威:https://en.wikipedia.org /维基/非breaking_space。 –
我认为没有人应该回答你的问题。你既不发表任何评论,也不将它们标记为答案。我想你不知道该怎么做。看看这个链接。没有一个人回答。 https://stackoverflow.com/users/7818121/sudharsonn-s – SIM