使用BeautifulSoup在CData内部擦除变量

我有一个网页，其中包含以下数据，我想在该网页的CData部分中进行刮擦。使用BeautifulSoup在CData内部擦除变量

<script type="text/javascript">//<![CDATA[ 

car.app = 


{"lat":26.175625,"lon":-80.13808,"zoom":"13","yellow":"\/img\/icons\/yellow.png","cars":[{"CAR_ID":"715383","ID":"538070521","UID":"0","CARNAME":"MAZDA","TYPE_COLOR":"0","LAT":"26.13437","LON":"-80.11906","COURSE":"100","SPEED":"0","LENGTH":"12","STATE":"OH"}] 

... 
... 
//]]></script>

我想抓住CData内的car.app变量，但我不确定如何解析python。

import bs4 as bs 

import urllib.request 

class AppURLopener(urllib.request.FancyURLopener): 
    version = "Mozilla/5.0" 

opener = AppURLopener() 
response = opener.open(url) 

c = response.read() 
soup = bs.BeautifulSoup(c, "html.parser") 
print(soup)

来源

2017-10-13 CENTURION

我想为您解决问题的唯一方法是使用BeautifulSoup解析特定标签，然后做一些字符串操作来实现自己的目标。

代码：

import bs4 as bs 
import urllib.request 

c = ''' 
<script type="text/javascript">//<![CDATA[ 

car.app = 


{"lat":26.175625,"lon":-80.13808,"zoom":"13","yellow":"\/img\/icons\/yellow.png","cars":[{"CAR_ID":"715383","ID":"538070521","UID":"0","CARNAME":"MAZDA","TYPE_COLOR":"0","LAT":"26.13437","LON":"-80.11906","COURSE":"100","SPEED":"0","LENGTH":"12","STATE":"OH"}] 

... 
... 
//]]></script> 
''' 
soup = bs.BeautifulSoup(c, "html.parser") 
script = soup.find('script') 
print(str(script.text).split('car.app =')[1].split('...')[0].replace('\n', ''))

输出：

{"lat":26.175625,"lon":-80.13808,"zoom":"13","yellow":"\/img\/icons\/yellow.png","cars":[{"CAR_ID":"715383","ID":"538070521","UID":"0","CARNAME":"MAZDA","TYPE_COLOR":"0","LAT":"26.13437","LON":"-80.11906","COURSE":"100","SPEED":"0","LENGTH":"12","STATE":"OH"}]

来源

2017-10-13 08:29:56 Ali

是的！我在想同样的方法，但不知道如何写出来。谢谢@Ali！ – CENTURION

没问题CENTURION :) – Ali

使用BeautifulSoup在CData内部擦除变量

回答

相关问题