压缩HTML标记中的属性之间的空白

我们刚刚发布了一些代码，以使我们的软件更方便用户使用，并且使用起来很麻烦。基本上，我们试图用<br />标签替换换行符。麻烦的是，有时我们的用户将输入如下代码：压缩HTML标记中的属性之间的空白

<a 
href='http://nowhere.com'>Nowhere</a>

当我们运行我们的代码，这相当于

<a <br />href='http://nowhere.com' />Nowhere</a>

这显然不能正常显示。

是否有正则表达式或PHP函数去除或可能压缩HTML标记的属性之间的空白？

澄清：这不是完整的HTML。它与Markdown或其他语言更类似（我们最终将转向Markdown，但我需要快速修复）。所以我不能将它解析为普通的HTML。换行符需要正确转换为<br />标签。

来源

2010-12-07 Topher Fangio

@ajreal - `trim（）`只会做字符串的开始和结尾。 – 2010-12-07 18:30:40

一些搜索和大量的试验和错误后，我想出了以下解决方案/黑客：

/* 
* Compress all whitespace within HTML tags (including PRE at the moment) 
*/ 
$regexp = "/<\/?\w+((\s+(\w|\w[\w-]*\w)(\s*=\s*(?:\".*?\"|'.*?'|[^'\">\s]+))?)+\s*|\s*)\/?>/i"; 

preg_match_all($regexp, $text, $matches); 

foreach($matches[0] as $match) { 
    $new_html = preg_replace('/\s+/', ' ', $match); 
    $text = str_replace($match, $new_html, $text); 
}

执行此代码后，在$text所有的HTML标签将被正确格式化，并且有效的，没有换行符字符。

我知道这不是最好的解决方案，但它很有效，很快我们就会迁移到真正的标记语言（如Markdown）。

来源

2010-12-07 20:38:31