我想使用Ruby来清理其标签的HTML页面。 我有原始的HTML,并希望定义一个标签列表,例如[“跨度”,“里”,“DIV”], 和创建的正则表达式的阵列,我可以按顺序运行,这样我有红宝石列表流畅的正则表达式
clean_text = raw.gsub(first_regex,' ').gsub(second_regex,' ')...
每个标签两个正则表达式(开始和结束) 。
我有办法以编程方式执行此操作(即从标记数组预先构建正则表达式数组,然后在流畅模式下运行它们)?
编辑:我意识到我实际上一次问了两个问题 - 第一个关于将标记列表转换为正则表达式列表,第二个关于调用正则表达式列表作为流利。感谢您回答这两个问题。我会尽量让我的下一个问题为单一主题。
有你想过使用适当的xml/html解析器(例如nokogiri http://nokogiri.org/)? – 2009-09-02 16:30:06
那么,一个合适的xml/html解析器是一个更强大的解决方案,但我希望“只是文本”,愿意容忍一个有点嘈杂的结果,而不必映射文档的确切结构。 – 2009-09-03 06:05:25