解析HTML/XML并找到原始文档中元素的位置

有没有办法获取元素在文档中的原始位置，即：在Python中解析html/xml时的开始和结束字符索引？解析HTML/XML并找到原始文档中元素的位置

我查看了lxml文档，找不到任何东西。

例如。

<a>1</a><b>2</b>

...

print tree.find('b').original_position 
# result: (9, 16)

2011-11-24 Acorn

谷歌发现this，要点其中的是：因为解析需要合成不具有任何相应的输入有效令牌很难对恶意文件。对于有效的文档是可能的，但大多数解析库不支持它。

2011-11-24 15:31:10 Dave

我怀疑是这样的情况。感谢您的链接！ – Acorn

回答