8
A
回答
23
doc = Nokogiri::HTML(your_html)
doc.xpath("//text()").to_s
+0
谢谢!工作正常+1 – rusllonrails 2017-11-25 13:42:43
5
使用Sax解析器。比XPath选项快得多。
require "nokogiri"
some_html = <<-HTML
<html>
<head>
<title>Title!</title>
</head>
<body>
This is the body!
</body>
</html>
HTML
class TextHandler < Nokogiri::XML::SAX::Document
def initialize
@chunks = []
end
attr_reader :chunks
def cdata_block(string)
characters(string)
end
def characters(string)
@chunks << string.strip if string.strip != ""
end
end
th = TextHandler.new
parser = Nokogiri::HTML::SAX::Parser.new(th)
parser.parse(some_html)
puts th.chunks.inspect
+0
这怎么可能被改变为仅在body标签之间获取文本? – Omnipresent 2010-12-11 16:27:53
+0
设置一个标志,并且只有在身体标签关闭后才能看到身体标签开始和停止捕捉后才开始捕捉角色。 – 2010-12-13 00:35:11
1
这里是如何让所有的文字在这个页面的问题DIV:
require 'rubygems'
require 'nokogiri'
require 'open-uri'
doc = Nokogiri::HTML(open("http://stackoverflow.com/questions/1512850/grabbing-text-between-all-tags-in-nokogiri"))
puts doc.css("#question").to_s
2
只要做到:
doc = Nokogiri::HTML(your_html)
doc.xpath("//text()").text
相关问题
- 1. 提取标签之间的所有值
- 2. 获取html标签内/ html标签之间的所有内容
- 3. 获取两个不同标签之间的所有字符串
- 4. Objective-C HTML解析。获取标签之间的所有文本
- 5. 获取HTML标签之间的所有元素在PHP
- 6. 有没有办法在DOM中的HTML标签之间提取文字逐字?
- 7. 如何获取html标签之间的所有元素?
- 8. 获取2个XML标签之间的所有值
- 9. 使用引入nokogiri获取两个标记之间的文本
- 10. 用vim替换标签之间的所有字符实例
- 11. 如何使用Nokogiri获取包含特定标签的所有文本?
- 12. 使用Nokogiri抓取汉字网页
- 13. 如何使用BeautifulSoup在两个指定标签之间获取所有文本?
- 14. 获取标签之间的所有字符串并回显它们?
- 15. Nokogiri只抓取可见inner_text
- 16. jsoup提取所有标签之间的文本,除了一个类型的子标签
- 17. 抓取所有的字符串列表
- 18. 使用Nokogiri的CSS方法获取alt标签中的所有元素
- 19. 获取在PHP 2串/标签之间的字符串
- 20. 在Atom中,当抓取标签时,如何设置标签之间显示的线条样式?
- 21. 获取所有文章与他们的标签GROUP_CONCAT字段
- 22. 标签之间的文本包括lxml中标签内儿童的文字
- 23. 使用银莲花和nokogiri屏幕抓取所需的帮助
- 24. 红宝石Nokogiri提取HTML标签值
- 25. Android - 在活动标签之间切换,获取标签索引
- 26. 在PHP中的复杂标签之间获取文本
- 27. 在php中的2个span标签之间获取文本
- 28. 两个标签之间的XQuery提取
- 29. 获取DIV标签之间的值?
- 30. 获取标签之间的信息
退房https://github.com/rgrove/消毒也 – Abram 2015-05-31 02:07:19