2016-11-24 63 views
1

我必须清理Nokogiri :: HTML :: DocumentFragment文档(删除包含空白的注释节点和文本节点)。这里有一个例子:查找文档片段中的评论或文本节点

html = "<p>paragraph</p><!-- comment --><p>paragraph</p> <p>paragraph</p>" 
doc = Nokogiri::HTML::DocumentFragment.parse html 

的文档片段看起来如你所期望:

#(DocumentFragment:0x3fc65f9f5870 { 
    name = "#document-fragment", 
    children = [ 
    #(Element:0x3fc65f9f5064 { name = "p", children = [ #(Text "paragraph")] }), 
    #(Comment " comment "), 
    #(Element:0x3fc65f9f4f60 { name = "p", children = [ #(Text "paragraph")] }), 
    #(Text " "), 
    #(Element:0x3fc65f9f4e48 { name = "p", children = [ #(Text "paragraph")] }) 
    ] 
}) 

我如何才能找到这个文件片段的所有评论,或所有文本节点?

下不工作,因为它不是一个完整的文件,但文件片段:

doc.search('//text()') 
doc.search('//comment()') 

回答

2

想通了:

doc.search('.//text()') 
doc.search('.//comment()')