我有一个HTML像这样:如何提取标题标签下的内容?
<div class="content">
<h1>Title 1</h1>
Lorem ipsum 1
<h2>Title 2</h2>
Lorem ipsum 2
<h3>Title 3</h3>
<b>Lorem ipsum 3</b>
<h1>Title 4</h1>
Lorem ipsum 4
<h2>Title 5</h2>
Lorem ipsum 5
</div>
我想在每个标题标题抽取内容,并将它们放到这样一个数组:
[
"Lorem ipsum 1",
"Lorem ipsum 2",
"<b>Lorem ipsum 3</b>",
"Lorem ipsum 4",
"Lorem ipsum 5"
]
我会怎么做,使用正则表达式和/或红宝石?我试着用split
方法玩弄,比如html_body.split(">")
,但仍然无法弄清楚如何正确地做到这一点。使用正则表达式和/或红宝石的正确方法是什么?
使用适当的HTML解析器 - 在红宝石的情况下 - 引入nokogiri。 – nhahtdh 2014-10-10 02:31:40