如何使用awk删除在Ubuntu中file1中存在第1列值的file1行？

说，我们有file1.csv这样如何使用awk删除在Ubuntu中file1中存在第1列值的file1行？

"agvsad",314 
"gregerg",413 
"dfwer",53214 
"fewf",344

和file2.csv这样

"dfwer" 
"fewf"

如何用awk删除其列1个值file2中存在，并得到一个文件3长相那些行像：

"agvsad",314 
"gregerg",413

由我处理的百万行的方式

来源

2014-08-29 user3692521

awk 'NR==FNR{seen[$0]++; next} !seen[$1]' file2.csv FS=, file1.csv应该做你想要什么，但它需要足够的内存来存储在file2.csv每行一个条目。

来源

2014-08-29 00:33:52

或许可以考虑将'$ 0'改为'$ 1'，否则'file2.csv'中的某个空格可能会干扰匹配。 – Scrutinizer 2014-08-29 10:17:36

我特别使用'$ 0'来避免'file2.csv中带引号的字符串中的空格问题'。我认为它们也会存在于'file1.csv'中的带引号的字符串中，并且希望被匹配为整个单元。 'file1.csv'用'FS ='解析，所以不会在空格上分割（但'file2.csv'用'FS'的默认值解析）。 – 2014-08-29 11:27:12

是的好点，双引号内可能有空格...... – Scrutinizer 2014-08-29 11:34:37

作为替代，用grep：

$ grep -vf file2.csv file1.csv 
"agvsad",314 
"gregerg",413

来源

2014-08-29 00:16:09 FatalError

非常感谢！这适用于小文件，但我正在处理数百万行的文件。我运行它，它仍然运行有没有更快的方法来做到这一点？ – user3692521 2014-08-29 00:29:29

无论文本在文本中出现的位置如何，都将删除这些行。虽然这可能会满足这种用法。 – 2014-08-29 00:29:38

+1表示简单的方法，但也可以添加'-Fw'选项。我同意Etan提出的警告。只有OP可以确认。 – 2014-08-29 00:44:22

如何使用awk删除在Ubuntu中file1中存在第1列值的file1行？

回答

相关问题