我想用压缩文本文件(CSV)存储网页。为了实现最佳压缩,我想提供一组1000个网页。然后,图书馆应该花一些时间为这些内容创建最佳的“字典”。一个明显的“字典”条目可以是<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
,它可以存储为%1或类似的东西,因为它几乎存在于所有的网页上。通过像这样创建一个自定义字典,在我的情况下压缩率应该是99%。用于压缩文本数据并将其作为文本存储的库
我的问题是,是否存在一个用于执行此操作的库,存在于具有MIT或类似自由许可证的Windows上?如果没有,你会推荐任何通用压缩库。我已经尝试了一下zlib,但它输出二进制数据。如果我将这个二进制数据转换为文本,我担心结果可能会比原始文本更长。
编辑:我需要能够将文本存储在CSV文件中,并且仍然能够将它们导入到数据库甚至Excel中。 “
什么是编程语言? Google for Huffman压缩库。看看[libhuffman](http://huffman.sourceforge.net/) – sled 2011-03-07 13:19:04
我正在寻找一个DLL,所以我猜它应该用C++或类似的语言编写。 – David 2011-03-07 13:30:13
我已经Google搜索了一遍,没有找到这样的DLL,除了用于教育目的的图书馆。 – David 2011-03-07 19:06:11