如何快速切割和切割大型数据文件？

我想以相当快速和高效的方式切割和切割大型数据文件，直至演出。如果我使用类似UNIX的“CUT”，那么速度非常快，即使在CYGWIN环境中也是如此。如何快速切割和切割大型数据文件？

我试过开发和标杆各种Ruby脚本来处理这些文件，并始终用冰的结果告终。

你会怎么用Ruby做，使这个不那么狗慢？

2008-09-23 Nick

为什么不一起将它们合并 - 用切做自己最擅长的和Ruby提供胶水/值与CUT结果补充的吗？你可以运行shell脚本，如下所示：

puts `cut somefile > foo.fil` 
# process each line of the output from cut 
f = File.new("foo.fil") 
f.each{|line| 
}

来源

2008-09-23 22:20:42 MikeJ

而不是写入临时文件，你可以这样做：pipe = IO.popen（“cut ...”）; pipe.each_line {| line | ...} – 2009-07-29 16:22:34

这个问题让我想起蒂姆·布雷的Wide Finder project我。最快捷的方式，他可以用Ruby读取一个Apache日志文件，并找出哪些文章已经获取的最多的是这个剧本：

counts = {} 
counts.default = 0 

ARGF.each_line do |line| 
    if line =~ %r{GET /ongoing/When/\d\d\dx/(\d\d\d\d/\d\d/\d\d/[^ .]+) } 
    counts[$1] += 1 
    end 
end 

keys_by_count = counts.keys.sort { |a, b| counts[b] <=> counts[a] } 
keys_by_count[0 .. 9].each do |key| 
    puts "#{counts[key]}: #{key}" 
end