2011-08-26 75 views
1

我正在使用python的lxml.html。我有一个xpath表达式来抓取节点的文本,但我需要的是所有文本,包括子标记的标记及其内容。我如何实现这一目标?in lxml.html我如何获取文本,子节点和子节点的内容?

+0

你能否解释一下你是否需要“元素内的所有文本”,或者说“元素的源代码”? (或者是其他东西?) – Steven

回答

1

Elementtext_content方法返回元素的文本,包括没有标记的子元素的文本内容。

0

我不确定你正在使用什么标签;因此,我弥补某事。

你可以试着做某事,如:

result = lxml.html.parse(url).xpath("//tr/td/a/text()") 

// TR意味着选择节点从无论身在何处,他们都符合选择当前节点在文档中。

您可以使用此('//')表达式来绘制子标记的标记。