HTML整洁，清理MS Word中标记

有10年存档文章的数据，其中大部分是千疮百孔的MS Word另存为HTML的标记状<p class="MsoNormal">HTML整洁，清理MS Word中标记

首先，是HTML收拾到的任务剥离MS Word生成的标记，还是我需要采取另一种方法？

其次，文章的前几年按月份拼凑在一起，并作为文本存储类型存储在数据库中。我非常喜欢将这些内容分解为单独的文章，这样我就可以更轻松地搜索网站（即搜索词/短语匹配时不会显示整个月的新闻）。我必须使用的唯一明确的模式来分离文章是文章标题（粗体，介于16-20px之间）和文章日期，一般为10px;标题和日期都显示在文章正文文本之前。有没有办法检测到标记的<h1> -ness或<small>，当我没有确切的标记来匹配？

这可能几乎不可能回答，但只是在一般情况下，你会采取什么方法来处理这个不值得羡慕的任务？ ;-)我在Scala中的JVM上，但也可以在LAMP堆栈上执行清理工作。

点子赞赏！

来源

2012-04-23 virtualeyes