0
我试图解析HTML文件,其中一种是如下图所示解析在python
<ol>
<li>
<div class="c1">
<span class="s1">hi</span>
" hello "
<span class="s2">world!</span>
</div>
</li>
<li>
<div class="c2">
<span class="s3">abc</span>
" def ghijkl "
<span class="s1">mno</span>
" pqr!"
</div>
</li>
</ol>
我尝试使用下面的代码
tree = html.fromstring(code.content)
sol = tree.xpath('//ol//text()')
for x in sol:
print x
解析使用lxml的一个标签内的所有文本
我得到的结果,因为这
hi
hello
world!
abc
def ghijkl
mno
pqr!
我能做些什么,以获取每个<li>
标签的所有文本在一行。即我想要的输出为
hi hello world!
abc def ghijkl mno pqr!