2010-06-15 64 views

回答

1

可能使用简单的算法很容易压缩基于标签的数据。

对于每个唯一的标签或属性名称,分配ID,用ID替换标签,存储ID和标签名称在单独的文件中,然后压缩为zip。

然后,只需将您的标记ID替换为从zip解压缩后在单独文件中获得的标记名称即可。

(你不必使用两个文件,你可以做到这一点在同一个文件)

您也可以为个别“字”的标签或属性的内部此方法。

这需要多一点时间,而不仅仅是压缩它,但对于大量重复文本的大中型文件,它可以节省大量的要传输的数据。

我不知道在'http post data'中定义了什么,但是如果它只是标记,可能有类似的算法。

+0

这不太可能产生比GZip或Zip压缩更好的结果,并且还有很多工作要做。 – 2010-06-15 18:09:00

+0

@软件猴子此方法适用于大量的重复数据。在此操作之后,您当然会使用GZip或Zip数据。 Excel的XSLX文件使用此方法压缩文件比zip更进一步。 – Meiscooldude 2010-06-15 18:15:19

+0

我的观点是,这基本上是zip-type算法的作用,他们很可能做得更好。那为什么要麻烦? – 2010-06-22 19:27:55

0

HTTP的两个标准压缩Content-Encoding值是gzip和deflate。

我在使用从Java服务器deflate切换到gzip的IE 8时遇到了问题。我没有时间进一步调查,但当时我有一个印象,要么(a)需要Java DeflaterOutputStream的简单输出,比如一些额外的包装,或者(b)有需要的选项以确保正确的互操作性。

以我的经验gzip压缩文本内容非常好,我一直在与Content-Type: gzipGZIPOutputStream工作,对IE,FF和Chrome多年来没有问题。