2
有10年存档文章的数据,其中大部分是千疮百孔的MS Word另存为HTML的标记状<p class="MsoNormal">
HTML整洁,清理MS Word中标记
首先,是HTML收拾到的任务剥离MS Word生成的标记,还是我需要采取另一种方法?
其次,文章的前几年按月份拼凑在一起,并作为文本存储类型存储在数据库中。我非常喜欢将这些内容分解为单独的文章,这样我就可以更轻松地搜索网站(即搜索词/短语匹配时不会显示整个月的新闻)。我必须使用的唯一明确的模式来分离文章是文章标题(粗体,介于16-20px之间)和文章日期,一般为10px;标题和日期都显示在文章正文文本之前。有没有办法检测到标记的<h1>
-ness或<small>
,当我没有确切的标记来匹配?
这可能几乎不可能回答,但只是在一般情况下,你会采取什么方法来处理这个不值得羡慕的任务? ;-)我在Scala中的JVM上,但也可以在LAMP堆栈上执行清理工作。
点子赞赏!
谢谢,它是一个复杂而模糊的问题 – virtualeyes 2012-04-23 20:05:52