2012-04-23 75 views
2

有10年存档文章的数据,其中大部分是千疮百孔的MS Word另存为HTML的标记状<p class="MsoNormal">HTML整洁,清理MS Word中标记

首先,是HTML收拾到的任务剥离MS Word生成的标记,还是我需要采取另一种方法?

其次,文章的前几年按月份拼凑在一起,并作为文本存储类型存储在数据库中。我非常喜欢将这些内容分解为单独的文章,这样我就可以更轻松地搜索网站(即搜索词/短语匹配时不会显示整个月的新闻)。我必须使用的唯一明确的模式来分离文章是文章标题(粗体,介于16-20px之间)和文章日期,一般为10px;标题和日期都显示在文章正文文本之前。有没有办法检测到标记的<h1> -ness或<small>,当我没有确切的标记来匹配?

这可能几乎不可能回答,但只是在一般情况下,你会采取什么方法来处理这个不值得羡慕的任务? ;-)我在Scala中的JVM上,但也可以在LAMP堆栈上执行清理工作。

点子赞赏!

回答

1

如果我是你,我会用我最喜欢的HTML::Parser工具包进行Perl。如果适合复杂和模糊陈述的问题像你一样。

+0

谢谢,它是一个复杂而模糊的问题 – virtualeyes 2012-04-23 20:05:52