1
我希望得到一些有关此问题的专家建议。我有两个文本文件,一个非常大(〜GB)和其他小(〜MB)。这些文件基本上每行都有信息。我可以说更大的文件有一小部分关于较小文件的信息。文件中的每一行都按照空格分隔的元组进行组织,差异是通过查看这两个文件中的一列或多列来找到的。这两个文件都基于这种列(文档ID)进行排序。大文件和其他小文件之间的高效差异
我通过在文档ID和行号上保留索引并在较大的文件中对该行进行随机访问以启动diff来实现它。但是这种方法很慢。我想知道这种情况的任何好的机制。
在此先感谢。
因此您想要检查两个文件中具有相同文档ID的两行是否与其他列不同? – xvatar 2012-07-20 18:14:36