我正试图在两列数据列表中查找唯一且重复的数据。我真的只是想将数据列与1使用linux命令“sort -f | uniq -i”一起忽略大小写
的数据可能是这样的(由制表符分隔):
What are you doing? Che cosa stai facendo?
WHAT ARE YOU DOING? Che diavolo stai facendo?
what are you doing? Qual è il tuo problema amico?
所以我一直在玩弄如下:
而不忽略大小写分选(只是 “排序”,没有-f选项)给我少重复
GAWK“{FS = “\ t” 的;打印$ 1}'EN-IT_Corpus.txt | sort | uniq的-i -D>愚弄
与忽略大小写( “排序-f”)分拣给我更多的重复
GAWK“{FS = “\ t” 的;打印$ 1}'EN-IT_Corpus.txt | sort -f | uniq的-i -D>愚弄
难道我真的认为#2是更准确的,如果我想找到重复忽略的情况下,因为它排序它首先忽略大小写,然后查找基于排序的数据复制?
据我所知,我不能合并排序和独特的命令,因为排序没有显示重复的选项。
谢谢你,史蒂夫
的是从你的样本数据你想要的输出? – 2013-02-23 00:37:40