我有一个文件(文件大小很大),其中包含行,每行都有一些以逗号分隔的字段。使用awk实用程序实现的场景
从这个文件中,我必须提取几个字段并将它们转储到一个新行。但这里的复杂性在于,最后一个字段(列)本身包含逗号,但该特定字段由双引号“some,thing”(可以说)标识。
让我举一个例子: -
the, quick, brown, fox, jumps, right, over, the little, "lazy,dog"
有很多这样的线路在此文件,该文件是逗号分隔的。
有可能是最后一列中的许多逗号,
现在我需要提取一些列出来,对于这最后一个肯定是我想提取。
我想过使用awk,但看起来awk并没有限制跨越分隔符的分割。
python有一个split()函数,我们可以限制no。的分裂和字符串进入最后的索引。 ['the','quick','brown','fox','jumps','right','over','little','lazy,dog']。
此外,双引号应从最终输出中删除。
我正在尝试使用awk,因为在大文件处理上awk似乎更快。但是有可能实现这样的事情,或者我需要循环和分裂的pythonic方式,它似乎有点慢。
注: 1)No。的列是固定的。
请建议。
当你摆脱“懒惰,狗”中的',',你想这仍然是最后一列,或两个?此外,作为一个旁边,是有问题的文件变量或固定的列数? – Levon 2012-04-18 16:04:22
您的标题'使用awk实用程序实现的场景'与您的允许使用python解决方案的问题不匹配。 – MattH 2012-04-18 16:08:44