2011-04-20 69 views
0

对于给定的输入例如:解析码头日志记录

70.80.110.200 - - [12/Apr/2011:05:47:34 +0000] "GET /notify/click?r=http://www.xxxxxx.com/hello_world&rt=1302587231462&iid=00000 HTTP/1.1" 302 0 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; FunWebProducts; HotbarSearchToolbar 1.1; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; AskTbFWV5/5.11.3.15590)" 4 4 

我想定义以下解析逻辑(可能正则表达式)

  1. 提取IP(3位数字,圆点)* 4 => 70.80.110.200
  2. 提取物的时间=> 12 /月/ 2011
  3. 提取时间=> 5点47分34秒
  4. 提取URI(以\开头,以\“结尾)。 => /notify/click?r=http://www.xxxxxx.com/hello_world & RT = 1302587231462 & IID = 00000

回答

1

完整代码示例(基于hsz's answer):

import java.util.*; 
import java.util.regex.*; 

public class RegexDemo { 

    public static void main(String[] argv) { 
    String pat = "^([0-9.]*).*?\\[(\\d+\\/\\w+\\/\\d+):(\\d+:\\d+:\\d+).*?\\].*?(\\/[^ ]*).*$"; 
    Pattern p = Pattern.compile(pat); 
    String target = "70.80.110.200 - - [12/Apr/2011:05:47:34 +0000] \"GET /notify/click?r=http://www.xxxxxx.com/hello_world&rt=1302587231462&iid=00000 HTTP/1.1\" 302 0 \"-\" \"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; FunWebProducts; HotbarSearchToolbar 1.1; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; AskTbFWV5/5.11.3.15590)\" 4 4"; 
    Matcher m = p.matcher(target); 
    System.out.println("pattern: " + pat); 
    System.out.println("target: " + target); 

    if (m.matches()) { 
     System.out.println("found"); 
     for (int i=0; i <= m.groupCount(); ++i) { 
     System.out.println(m.group(i)); 
     } 
    } 
    } 
} 
2

确保码头被配置为执行NSCA兼容日志记录,则可以使用任何NCSA日志分析器来分析日志。

如果你想手工完成,那么这是一个很好的正则表达式用例。

3

与尝试:

/^([0-9.]+).*?\[(\d+\/\w+\/\d+):(\d+:\d+:\d+).*?\].*?(\/[^ ]*).*$/ 

如您所愿,在以下组(1,2,3,4)你会得到你所指定的所有数据 - 例如.group(3)是时间。

+0

能否请您提供这样的代码示例? – 2011-04-20 11:40:48

+0

对不起,但没有 - 使用谷歌/书来找到如何在Java中使用正则表达式。 – hsz 2011-04-20 11:41:54

+0

不是100%正确的 - 固定版本:r = /^([0-9.]*).*?\[(\d+\/\w+\/\d+):((dd::d+:\d+) (原始版本只匹配一个数字/句号而不是整个组,并且它不会偏离方括号) – 2011-04-20 11:50:37

0

你可以尝试以下方法:

String s = "70.80.110.200 - - [12/Apr/2011:05:47:34 +0000] \"GET /notify/click?r=http://www.xxxxxx.com/hello_world&rt=1302587231462&iid=00000 HTTP/1.1\" 302 0 \"-\" \"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; FunWebProducts; HotbarSearchToolbar 1.1; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; AskTbFWV5/5.11.3.15590)\" 4 4"; 
Pattern p = Pattern.compile("^(\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}).*?\\" + //ip 
          "[([^:]*):"+ //date 
          "(\\d{2}:\\d{2}:\\d{2}).*?\\].*?"+ //time 
          "(/[^\\s]*).*$"); //uri 

Matcher m = p.matcher(s); 
if(m.find()){ 
    String ip = m.group(1); 
    String date = m.group(2); 
    String time = m.group(3); 
    String uri = m.group(4); 
}