2
在python中,如何在使用lxml.html时保留段落(即保留换行符)?Python在cssselect和text_content()后保留lxml.html中的换行符
例如,下面将剥离<p> </P >标签,并加入线,这是不是我想要的:
body = doc.cssselect("div.body")[0]
content = body.text_content()
这是我已经试过了不起作用:
- lxml.html.clean.clean_html:
- 将不保留换行。
- content.replace( “ ”* 3,“ \ n \ n”):
- 没有一致地工作,因为 结合的文本不具有相同的 数量的空格。
谢谢,这是我落得这样做:第= self.doc.cssselect( '#DIV体P') paragraph_text = [paragraph.text_content()在段段] 含量=“\ n \ n'.join(paragraph_text) – Lionel 2010-11-23 09:58:17
'body.xpath(“* // p”)'不适用于我,我将它改为'body.xpath(“./ p”)'。无论如何 – 2014-03-12 15:53:17