我正在使用PHP,从网站获取HTML,将它们转换为纯文本并将它们保存到数据库。HTML到明文 - 未知原始编码
他们需要在utf-8中保存到数据库中。 我的第一个问题是我不知道原始编码,从未知编码编码为utf-8的最佳方法是什么?
第二个问题是html到纯文本的转换。我尝试使用html2text,但它搞砸了所有的外国UTF字符。
什么是最好的方法?
编辑:看来关于纯文本的部分还不够清楚。我不需要去除html标签。我想剥离标签,同时保持一种文档结构。 <p>
,<li>
标签将转换为换行符等标签,如<script>
将被完全删除与他们的内容。
你尝试函数utf8_encode? –
@AntonioLaguna utf8_encode只转换在ISO-8859-1中编码的字符串 – applechief
不确定你想要从“文本/纯文本”编码中想要什么(无论你想保留标签,剥离标签还是其中的某个地方)......可能值得看看HTML Purifier进行转换:http://htmlpurifier.org/ – CD001