2010-07-06 97 views
1

我有一个大的文本文件,其中包含4位代码以及每行中的一些关于它们的信息。它看起来像这样:对文本文件进行排序并删除重复项

3456 information 
1234 info 
2222 Some ohter info 

我需要排序此文件,所以代码在文件中升序。此外,一些代码出现不止一次,所以我需要删除重复。我可以用perl,awk或其他脚本语言来做到这一点吗?

由于提前,

-skazhy

+0

为了帮助您更快开始使用,您已拥有哪些工具可供您使用?例如,您可以在MS Excel中快速执行此操作。 – 2010-07-06 17:55:51

回答

4
sort happybirthday.txt | uniq 

IBM

Google的第一个结果:unix remove duplicate lines

+0

谢谢,答案对我的问题来说太简单了:) – skazhy 2010-07-06 18:05:08

+1

将结果输出到一个新文件中:'sort happybirthday.txt | uniq> happybirthday_sorted.txt' – mike23 2011-05-20 15:04:53

0

您可以创建哈希值,然后在第一空间的行和每行

  • 分裂读取行的文件
  • 检查,如果VAL(0),您刚刚拆分的数量,是在哈希
  • 如果没有插入件的VAL(1),其余的行的,进散列用密钥VAL(0)
  • 继续

然后打印(排序)哈希到文件。