我试图从另一个网站刮掉一些内容,我不知道为什么BeautifulSoup产生这种输出。它只是在匹配内找到一个空格,但真正的HTML包含大量的标记。我很抱歉,如果这是我的一部分愚蠢。我是python的新手。BeautifulSoup Parser Confusion - HTML
这里是我的代码:
import sys
import os
import mechanize
import re
from BeautifulSoup import BeautifulSoup
def scrape_trails(BASE_URL, data):
#Get the trail names
soup = BeautifulSoup(data)
sitesDiv = soup.findAll("div", attrs={"id" : "sitesDiv"})
print sitesDiv
def main():
BASE_URL = "http://www.dnr.state.mn.us/skiing/skipass/list.html"
br = mechanize.Browser()
data = br.open(BASE_URL).get_data()
links = scrape_trails(BASE_URL, data)
if __name__ == '__main__':
main()
如果你跟随你可以看到sitesDiv该URL中含有大量的标记。我不知道我是否做错了什么,或者这只是脚本无法处理的格式错误。谢谢!