2013-04-26 56 views
0

我有一个(大)文本体,我正在努力尝试并将它从最初的网页友好格式转换为稍微更具限制性的东西(epub--并且一些读者对他们所采用的HTML非常挑剔在)。我可以使用HTML净化器来查找编码问题,而不是仅仅剥离它们吗?

HTML净化器对于一类问题非常有效,我将其称为“错误编码”。像缺少闭括号(这在技术上是合法的HTML)以及浏览器自动解决的其他问题。

其中HTML净化器是而不是工作很棒的是当它运行到一个编码问题。许多角色被保存在Ӓ格式,哪个(显然?)HTML净化器不关心。也许我只需要更好地配置它。另一个问题是我存在的祸根:卷曲的引号,电子短划线等等。我已经设法在许多这些问题上进行大规模搜索和替换,但是令我担忧的是我可能在某个地方错过了某个角色(因为遇到了带有口音的似曾相识的案件而带回家)包括严重标志)。

有没有什么办法让HTML净化器告诉我这种字符存在问题,而不是默默剥离它们?我试图查看代码,但是该软件是针对不同的用例场景设计的(“默默地”处理用户输入,而不是程序员在文本主体上进行大规模转换),而且我只是没有看到我正在寻找的数据。

回答

0

我觉得这个功能mysql_real_escape_string($文本)是usd您的问题

$文字=“这是一个历史悠久的事实,读者将通过一个页面的可读的内容看的时候分心它的布局使用Lorem Ipsum的要点是它有一个或多或少正常的字母分布,而不是使用'Content here,content here',使它看起来像可读的英语。许多桌面出版软件包和网页编辑们现在使用Lorem Ipsum作为他们的默认模型文本,并且搜索'lorem ipsum'将会发现许多仍处于初期阶段的网站。多年来不断演变,有时是偶然的,有时是故意的(注入幽默等等) )“。

$ main = mysql_real_escape_string($ text);

+1

mysql_ * function is deprecated this this http://stackoverflow.com/questions/12859942/why-shouldnt-i-use-mysql-functions-in-php/14110189#14110189 – 2013-04-26 06:19:10

+0

不仅他们折旧,但我不想让系统简单地为我决定合适的替代品。我想知道有一个问题并自己解决。 – RonLugge 2013-04-26 06:23:22

+0

@jitesh您的评论似乎已被截断......我看到的所有链接都是参考页面的链接,这证明了NullPointer指出该功能已折旧并且应该避免。此外,它基于字符集 - 因为字符集本身就是问题,所以它是一个完整的禁止。 – RonLugge 2013-04-26 16:20:07

相关问题