我需要从网站中删除所有不友好的html字符我使用curl和simplehtml dom解析。在PHP中删除
<?php
$html = "this is a text";
var_dump($html);
var_dump(html_entity_decode($html,ENT_COMPAT,"UTF-8"));
其输出
串(19) “这是一个 文本”
串(15) “这个is┬áa文本”
我不因为文本中还有其他字符(例如&度),所以要使用preg *。 这让我疯狂了!
谢谢, 詹姆斯
他说:“我需要删除所有可恶的html字符”,而不仅仅是 。有趣的立即upvotes。 – Coder1 2013-03-07 17:33:42
不情愿不得不采取这种方法,但不高兴,因为它意味着如果任何HTML字符我没有考虑弹出,我的解决方案中断。尽管我没有回答这个问题。我考虑的一个解决方案是#&[a-zA-Z];#和普通英语一样,在&符号周围总会有一个空格。 – James 2013-03-11 09:47:55