首先,我很抱歉,这可能是一个相当愚蠢的问题,但并不完全属于此处。如何确定一个文件的内容是否包含在另一个文件的内容中
这是我的问题:我有两个大文本文件包含大量文件名称,我们称它们为A和B,并且我想确定A是否为B的子集,无视顺序,即对于每个文件名A,找到文件名是否也在B中,否则A不是子集。
我知道如何对文件进行预处理(除去文件名本身,除去不同的大写字母),但现在我只是想知道是否有一种简单的方法来使用shell命令执行任务。
差异可能不起作用,对吧?即使我首先对这两个文件进行“排序”,至少两个文件的排列顺序是相同的,因为A可能是B的子集,diff会告诉我每一行都是不同。
再说一遍,如果这个问题不属于这里,并且最后如果没有简单的方法去做,我只会写一个小程序来完成这项工作,但是因为我试图更好地处理shell命令,我想我会先在这里问。
好问题! +1;)使用'sort'和'diff'的问题是什么?看起来不错。 – hek2mgl 2013-05-02 23:53:23
也许是我的差异的理解是缺乏的,但说文件A包含: AAA CCC 和B包含: AAA BBB CCC 差异只会告诉我,第2行是不匹配的,但我想要的它要做的是告诉我ccc是*在某处发现的。如果diff的选项存在,即使在阅读手册页之后,我也不知道它。 – tonfagun 2013-05-02 23:58:41
所以你想做一个基于行的包括检查,而不是基于块(文件的整个内容作为块)? – Kent 2013-05-03 00:09:05