压缩大字节数组同时保持相似性

我有两个大的字节数组，每个大约有40000字节。这些数组大约有90％相似。我想尽可能地压缩它们，同时通过比较压缩阵列仍然能够发现它们大约90％相似。这是可以实现的吗？压缩大字节数组同时保持相似性

2016-09-26 FS' Wæhre

你可以为它们两个建立一个最佳的Huffman，然后用它来压缩它们。并不是100％保证所有类似的零件都是相同的，但是如果足够的话，它接近100％。

2016-09-26 15:24:44

接近100％就够了。我会看看 –

回答