从Fedora 17切换到18后,对于相同的lxml代码,我得到了不同的解析行为,这显然是由于底层库的不同版本(libxml2和libxslt版本已更改)。如何控制lxml xpath text()函数中的换行处理?
这里是有两个版本不同的结果lxml的代码示例:
from io import BytesIO
from lxml import etree
myHtmlString = \
'<!doctype html public "-//w3c//dtd html 4.0 transitional//en">\r\n'+\
'<html>\r\n'+\
'<head>\r\n'+\
' <title>Title</title>\r\n'+\
'</head>\r\n'+\
'<body/>\r\n'+\
'</html>\r\n'
myFile = BytesIO(myHtmlString)
myTree = etree.parse(myFile, etree.HTMLParser())
myTextElements = myTree.xpath("//text()")
myFullText = ''.join([myEl for myEl in myTextElements])
assert myFullText == 'Title', repr(myFullText)
的F17版本经过断言,即xpath("//text()")
只返回文本'Title'
,而F18版本失败输出
Traceback (most recent call last):
File "TestLxml.py", line 17, in <module>
assert myFullText == 'Title', repr(myFullText)
AssertionError: '\r\n\r\n Title\r\n\r\n\r\n'
显然,f18版本处理换行符和空格与f17版本不同。
有没有办法控制这种行为? (可选参数在某处?) 甚至更好,是否有方法可以使用新库恢复旧行为?