所以我有一个网页,有一个大的链接列表。它们都包含在<li>
标签内。如何使用lxml将这些html标签打印为文本?
的<li>
标签是<ol>
标签内<div>
等这样的内部:
html --> body --> table --> tbody --> tr --> td --> table --> tbody --> tr --> td --> div --> ol
然后是<li>
标签是<ol>
内。
如何在Python中使用lxml
来将<li>
标记的html作为文本打印?
您是否需要使用lxml?列表(ol)或表格是否分配有ID,或者文档中只有一个表格? – mdadm
与@mdadm相同的问题。我会使用BeautifulSoup(实际上使用lxml) –
请提供一个实际的HTML示例。这不仅仅是描述你的问题,也是为了解答你的问题的人们提供测试他们解决方案的方法。 –