我想用Python HTMLParser解析一个网页。我想获取标签的内容,但我不知道如何去做。这是我到目前为止的代码:Python和HTMLParser.handle_data() - 如何从标签获取数据?
import urllib.request
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print("Encountered some data:", data)
url = "website"
page = urllib.request.urlopen(url).read()
parser = MyHTMLParser(strict=False)
parser.feed(str(page))
如果我理解正确的话,我可以使用handle_data()
函数来获取标签之间的数据。如何指定从哪个标签获取数据?我如何获取数据?
我建议你使用[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/),因为它有一个非常友好的界面。 – jcollado
不仅仅是因为友好的界面,它更容易理解HTML格式的错误/不正确的HTML格式,你会在狂放的网页上看到它。 – babbageclunk
我试过BeautifulSoup。我解析的页面使它窒息。即使BeautifulSoup不起作用,你怎么做? :) – user1049697