2017-10-21 164 views
1

我写了一个负责'折叠'日志文件的bash脚本。鉴于格式的日志文件:bash脚本的性能问题

21 Oct 2017 12:38:03 [DEBUG] Single line message 
21 Oct 2017 12:38:05 [DEBUG] Multi line 
message 
that may continue 
several lines 
21 Oct 2017 12:38:07 [DEBUG] Single line message 

崩溃日志文件,以一个单一的内衬文件用分隔符:

21 Oct 2017 12:38:03 [DEBUG] Single line message 
21 Oct 2017 12:38:05 [DEBUG] Multi line; message; that may continue; several lines 
21 Oct 2017 12:38:07 [DEBUG] Single line message 

以下bash脚本实现了这一目标,但在速度奇慢的速度。在8核32 GB的机器上,500MB输入日志可能需要30分钟。

while read -r line; do 

    if [ -z "$line" ]; then 
    BUFFER+=$LINE_SEPERATOR 
    continue 
    done 

    POSSIBLE_DATE='cut -c1-11 <<< $line' 
    if [ "$PREV_DATE" == "$POSSIBLE_DATE" ]; then # Usually date won't change, big comparison saving. 
    if [ -n "$BUFFER" ]; then 
     echo $BUFFER 
     BUFFER="" 
    fi 

    BUFFER+="$line" 
    elif [[ "$POSSIBLE_DATE" =~ ^[0-3][0-9]\ [A-Za-z]{3}\ 2[0-9]{3} ]]; then # Valid date. 
    PREV_DATE="$POSSIBLE_DATE" 
    if [ -n "$BUFFER" ]; then 
     echo $BUFFER 
     BUFFER="" 
    fi 

    BUFFER+="$line" 
    else 
    BUFFER+="$line" 
    fi 
done 

任何想法如何优化这个脚本?它看起来好像是正则表达式是瓶颈(我的第一个优化),因为现在这个条件很少被触及。

日志文件中的大部分行都是单行的,所以它只是前面11个字符的直线比较,看起来好像不像计算上那么昂贵?

谢谢。

+2

只需使用Python。每当你阅读一行时,它会比产卵过程好得多。或者使用AWK。 –

+0

'POSSIBLE_DATE ='cut -c1-11 <<< $ line''除非存在复制粘贴问题,您的条件未测试您想要的内容... – Mat

回答

2

这将是更加更快,因为它不会产生多个进程。

$ awk '/^[^0-9]/{ORS="; "} /^[0-9]/{$0=(FNR==1)?$0:RS $0; ORS=""} END{printf RS}1' file 
21 Oct 2017 12:38:03 [DEBUG] Single line message 
21 Oct 2017 12:38:05 [DEBUG] Multi line message; that may continue ; several lines; 
21 Oct 2017 12:38:07 [DEBUG] Single line message 

/^[^0-9]/{ORS="; "}:如果符合非数字然后设置输出记录分隔开始为;而不是默认\n

/^[0-9]/{$0=(FNR==1)?$0:RS $0; ORS=""}:如果它以数字开头,然后设置ORS=""和前置RS\n的记录(除了第一行,例如FNR==1,我们不想在开始时换行)

+1

谢谢!这很好。我不得不修改正则表达式在分析开始日期时更加积极,但它的工作非常出色。感谢您的解释。 – jammmie999

1

您可以用sed

sed ':B;/^[0-9][0-9]* /N;/\n[0-9][0-9]* /!{s/\n/; /;bB};h;s/\n.*//p;x;s/.*\n//;tB' infile 

可以调整正则表达式 '[0-9] [0-9] *' 您的需要。使用AWK