所以我想在Python中使用HTMLParser和urllib3在python中制作一个web爬虫。目前我有两个不同的进口问题,第一个是HTML解析器导入问题
import html.parser
import urllib
urlText = []
#Define HTML Parser
class parseText(HTMLParser.HTMLParser):
def handle_data(self, data):
if data != '\n':
urlText.append(data)
#Create instance of HTML parser
lParser = parseText()
thisurl = "http://www-rohan.sdsu.edu/~gawron/index.html"
#Feed HTML file into parser
lParser.feed(urllib.urlopen(thisurl).read())
lParser.close()
for item in urlText:
print (item)
,并与此代码是在Visual Studio错误框
name 'HTMLParser' is not defined
返回一个错误,第二个选项是完全一样的,但与进口的HTMLParser代替html.parser
import HTMLParser
import urllib
urlText = []
#Define HTML Parser
class parseText(HTMLParser.HTMLParser):
def handle_data(self, data):
if data != '\n':
urlText.append(data)
#Create instance of HTML parser
lParser = parseText()
thisurl = "http://www-rohan.sdsu.edu/~gawron/index.html"
#Feed HTML file into parser
lParser.feed(urllib.urlopen(thisurl).read())
lParser.close()
for item in urlText:
print (item)
返回错误
No module named 'markupbase'
我对包装失去了主意。有谁知道修补程序或看到问题。 Ps。我在Visual Studio 2016中运行了这个工具,并且在Python 3.5中运行了这个工具。
我无法在第二个示例中重现该问题。请显示完整的追踪。还要修复您的缩进。 –