2010-06-02 58 views
4

我们现在需要依法对我们公司的所有财务文档进行数字化处理,并将其每3个月提交给评估。压缩数字化文档图像

由于这是敏感数据,我们决定将问题交到我们自己的手中,并构建某种数字数据归档器。该工具完美工作,但经过7个月的使用后,我们开始担心这些映像使用的磁盘空间。

这里上的文件量的一些信息数字化:扫描并每天存档

  • 15K的文件,用+最终PNG大小 - 860KB:15 000 * 860千比特= 1.53779984千兆
  • 30天每月的工作:1.53779984千兆字节* 30 = 46.1339952千兆1年
  • 后磁盘空间使用情况的展望:46.1339952千兆字节* 12 = 553.607942千兆

小号远远我们使用了424千兆字节的磁盘空间,没有计算备份。我们使用PNG作为图像格式,但是我想知道是否有人对图像采用更好的压缩算法或压缩PNG的替代策略提供更多甚至更好的方法来存档图像以节省磁盘空间。

任何帮助,将不胜感激,谢谢。

回答

3

DjVu这个比较新的格式可以更好,它是专门为压缩扫描文档而设计的。它适用于黑白,灰度和彩色文档。它将前景/背景分离与复杂的小波压缩方案相结合。如果您获得商业版本,我相信您也可以获得您的文档OCR'd,以便搜索它们,但有一个完全开放源代码版本,称为DjVuLibre

+0

什么是讨厌的网站!所有的详细文档都是djvu格式。有人需要2x4的头部。 – ergosys 2010-06-03 03:15:42

2

推测这些文件不需要全部在线不断。如果是这种情况,从您提供的信息中,我看不出有什么理由需要改变您的工作流程。

PNG是一种广泛支持的无损(zlib)压缩格式,我猜你正在使用它。如果你不需要无损压缩,好的ole JPEG会以较小的质量损失为代价提供更紧的压缩,只要你适当地调整压缩比。根据您的软件堆栈,JPEG2000可能是另一种选择。 LZW压缩的TIFF与PNG相比没有什么优势,除了每像素16位支持以外,您可能不需要这些支持。其他选项包括专有专业编解码器(如MrSID)​​,以极高的价格提供非常好的超大文件压缩。

由于这些都是扫描文档,我想我会认为PDF是“自然”格式,在其中进行编码。 PDF根据文件的内容提供各种压缩选项。但我不会竭尽全力解决一些未被破解的东西。

如果您现在想到您在硬盘空间上花费了多少钱,那么每天1.5 GB是没有用的。驱动器空间便宜并且不断变得更便宜。只需每6个月购买三个新的1 TB USB驱动器(主/备份/非现场备份),总成本为240美元或任何其他。即使磁带备份也不是不合理的。

0

500 Gb每年并不多,而硬盘每年越来越便宜