2009-08-18 139 views
0

我正在尝试将html编码文本转换为utf-8以将其放入我的数据库。 有很多字符会被html_entity_decode或iconv与Translit一起遗漏。html_entity_decode characters like Yuml vs&yuml

我已经写了字的长列表来剔除,但现在我看到& Yuml不被翻译,但& yuml是。

我相信还有其他类似的符号也错过了。

关于如何最好地处理这些不一致的建议?并确保我得到每个字符翻译正确?

回答

1

任何形式的&等等;是(X)HTML中的实体引用;如果你需要确保你已经得到了全部,请确保你的最终UTF-8输出中没有包含该模式。你还会发现很多没有分号的结尾(但是有很多误报)。

维基百科自然地有一个list of HTML/XHTML/XML entity codes。您可以实施该(长)列表,并查看是否在野外找到任何附加的列表。

+0

谢谢德罗伯特, 我希望有一种方法可以做到这一点,而不会经历这么长的列表(希望已经存在的东西)。 看起来我会为此做些清洁工作,我会在未来为那些需要它的人发布功能。 – pedalpete 2009-08-19 18:25:07