2012-07-20 100 views
1

我希望得到一些有关此问题的专家建议。我有两个文本文件,一个非常大(〜GB)和其他小(〜MB)。这些文件基本上每行都有信息。我可以说更大的文件有一小部分关于较小文件的信息。文件中的每一行都按照空格分隔的元组进行组织,差异是通过查看这两个文件中的一列或多列来找到的。这两个文件都基于这种列(文档ID)进行排序。大文件和其他小文件之间的高效差异

我通过在文档ID和行号上保留索引并在较大的文件中对该行进行随机访问以启动diff来实现它。但是这种方法很慢。我想知道这种情况的任何好的机制。

在此先感谢。

+0

因此您想要检查两个文件中具有相同文档ID的两行是否与其他列不同? – xvatar 2012-07-20 18:14:36

回答

0

如果已知文件按相同的顺序排序,并且共享一个公共密钥的行预计完全匹配,那么comm可能就是您想要的 - 它有标志允许您只显示两个文件之间通用的行,或者只显示一个文件但不显示另一个文件的行。

相关问题