我创建了一个基于'HTMLParser'的子类来提取html内容。每当我有性格裁判如解码html内容和HTMLParser
' ' '&' '–' '…'
我想要的
' ' (space), '&', '-', '...', and so on.
什么是一些简单的字符裁判的转化为自己的正确表示最好的办法他们的英国同行来替代它们?
我的文字是类似于:
Some text goes here&after that, 6:30 pm–8:45pm and maybe
something like …
我想将其转换为:
Some text goes here & after that, 6:30 pm-8:45pm and maybe
something like ...
[在Python中将XML/HTML实体转换为Unicode字符串](http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode-string-in-python) – geoffspear