2015-03-02 70 views
0

我使用html2text用于将HTML转换成文本, 但它也改变了我的文本字符串以及如A&PA&P;Python的问题

我怎么才能避免这种变化

In [1]: import html2text 

In [2]: conv = html2text.HTML2Text() 

In [3]: conv.handle("string A&P string") 
P 
&P; 
Out[3]: u'string A&P; string\n\n' 

输出html2text文本应是

Out[3]: u'string A&P string\n\n' 
+0

正是html2text包您使用的是哪一种?似乎有这个名字的多个工具。 – yole 2015-03-02 08:12:51

回答

0

这是因为您转换的字符串有语法错误。应该用html语言转义&。

尝试

out = conv.handle("string A&P string")