2013-05-07 87 views

回答

1

我认为这是不可能的,如果你根本不解析。我想你可以使用HtmlParser http://docs.python.org/2/library/htmlparser.html,只是保留数据标签,但你很可能会得到比你想要的许多其他元素。

与[Ctrl-C]完全一样,由于类似于style =“display:hidden;”会很难避免解析。这将隐藏文本,这将再次导致文档和资源文件的html,javascript和css的完全解析。

1

解析是必需的。不知道是否有库方法。一个简单的正则表达式:

text = sub(r"<[^>]+>", " ", html) 

这需要很多改进,但这是一个起点。

1

使用python,BeautifulSoup模块非常适合解析HTML,值得一看。要从网页获得文字,这只是一个例子:

#!/usr/env python 
# 
import urllib2 
from bs4 import BeautifulSoup 

url = 'http://python.org' 
html = urllib2.urlopen(url).read() 
soup = BeautifulSoup(html) 

# you can refine this even further if needed... ie. soup.body.div.get_text() 
text = soup.body.get_text() 

print text 
相关问题