2014-02-14 28 views
2

我想通过更改文件的格式来量化我可以获得的空间节约。选项卡占用多少空间?

我有一个稀疏矩阵储存在一个文本文件(30%稀疏)。列由标签分隔。

idea in an SO answer后,我会将格式更改为row_id,col_id仅限于非零项。我知道一个浮动需要多少空间,但我的问题是:一个选项卡需要多少空间?

+0

标签字符在文本文件中使用多少字节取决于字符编码。 ASCII字符需要一个字节:'\ t'。请注意,编辑器可能会将制表符显示为2或4个空格,或者任何配置。 – CouchDeveloper

回答

1

CouchDeveloper在他的评论中是正确的。从您提供的数据中无法分辨出来。
在单字节字符集编码中,您将为当前“,”的每个分隔符保存1个字节。
在多字节编码中,它将取决于每个字符的编码方式,理论上甚至会失去空间。假设一个标签被编码为4个字节,逗号和空格分别为1,那么每个分隔符最多需要2个字节。
除非你有很多分隔符和相对很少的数据,否则我不会担心这种或那种方式,它会是微观优化。
如果这样做,二进制编码方案可能更相关。

1

1个字节,但如果您使用压缩(基于它们的平均程度,平均少于一点)会显着减少。使用压缩。

+1

并不总是如此。多字节字符集中的选项卡可以使用多个字节进行编码。 – jwenting