html_entity_decode characters like Yuml vs＆yuml

我正在尝试将html编码文本转换为utf-8以将其放入我的数据库。有很多字符会被html_entity_decode或iconv与Translit一起遗漏。html_entity_decode characters like Yuml vs＆yuml

我已经写了字的长列表来剔除，但现在我看到& Yuml不被翻译，但& yuml是。

我相信还有其他类似的符号也错过了。

关于如何最好地处理这些不一致的建议？并确保我得到每个字符翻译正确？

2009-08-18 pedalpete

任何形式的&等等;是（X）HTML中的实体引用;如果你需要确保你已经得到了全部，请确保你的最终UTF-8输出中没有包含该模式。你还会发现很多没有分号的结尾（但是有很多误报）。

维基百科自然地有一个list of HTML/XHTML/XML entity codes。您可以实施该（长）列表，并查看是否在野外找到任何附加的列表。

2009-08-19 06:45:43 derobert

谢谢德罗伯特，我希望有一种方法可以做到这一点，而不会经历这么长的列表（希望已经存在的东西）。看起来我会为此做些清洁工作，我会在未来为那些需要它的人发布功能。 – pedalpete 2009-08-19 18:25:07

回答