标签的目标文本我有我尝试使用引入nokogiri(关于Ruby)来分析一些非常裸露的HTML:不使用引入nokogiri
<span>Address</span><br />
123 Main Street<br />
Sometown<br />
<span>Telephone</span><br />
<a href="tel:212-555-555">212-555-555</a><br />
<span>Hours</span><br />
M-F: 8:00-21:00<br />
Sat-Sun: 8:00-21:00<br />
<hr />
我唯一的标记是页面内容周围<div>
。我想要的每件东西都有一个<span>Address</span>
类型标签。最后可以跟着另一个span
或hr
。
我想结束地址(“123 Main Street \ nSometown”),电话号码(“212-555-555”)和开放时间作为单独的字段。
有没有一种方法可以使用Nokogiri获取信息,或者使用正则表达式执行此操作会更容易吗?
用'(?= )'分隔上面的文字?然后清洁标签? – nhahtdh 2013-02-13 16:37:04
使用Nokogiri。总是,总是_always_使用正则表达式的解析器来处理HTML/XML,除非你喜欢痛苦。 – iain 2013-02-13 18:03:05
你可以发布你想要的输出吗? – 2013-02-13 18:24:52