2011-11-24 84 views
0

有没有办法获取元素在文档中的原始位置,即:在Python中解析html/xml时的开始和结束字符索引?解析HTML/XML并找到原始文档中元素的位置

我查看了lxml文档,找不到任何东西。

例如。

<a>1</a><b>2</b> 

...

print tree.find('b').original_position 
# result: (9, 16) 

回答

1

谷歌发现this,要点其中的是:因为解析需要合成不具有任何相应的输入有效令牌很难对恶意文件。对于有效的文档是可能的,但大多数解析库不支持它。

+0

我怀疑是这样的情况。感谢您的链接! – Acorn

相关问题