2012-03-26 99 views
-2

有一项任务是编写crawler来通过python抓取网页。 其中一个要求是指定日志文件的级别,因为日志文件的详细级别也是如此。 但我不知道应该记录什么?以及详细程度如何? 大家可以举个例子吗?日志文件的级别是什么?

+1

“有任务要写......”那是什么?你想做什么?到目前为止你有任何代码吗?这是功课吗? – SingleNegationElimination 2012-03-26 02:36:21

+0

我发布了关于Apache httpd日志级别的评论,但是我不确定您是否解析本地日志文件或抓取外部网站。你能提供这些信息吗? – 2012-03-26 02:38:27

+0

@TokenMacGuy:不是作业,它的任务是编写一个由线程数,深度,日志文件,日志文件级别指定的搜寻器,并且我已经完成了大部分任务,但是我不知道应记录以区分不同级别的日志文件 – 2012-03-26 02:40:53

回答

1

这就好比你现在登录的内容:

12:01:03 Preparing to download http://a.com/aaaaa/1... 
12:01:03 Resolved host 'a.com' to '147.34.98.1' 
12:01:04 Connected to 'a.com' (147.34.98.1) 
12:01:04 Sent HTTP request http://a.com/aaaaa/1 
12:01:06 Downloaded (48 KB in 1.5s) from http://a.com/aaaaa/1 
12:01:08 Indexed http://a.com/aaaaa/1 (in 1.2s) 
12:01:08 Downloaded http://a.com/aaaaa/1. 

12:02:39 Preparing to download http://a.com/aaaaa/2 
.... 

如果你给了日志级别的控制,这可能是在一个水平:

12:01:08 Downloaded http://a.com/aaaaa/1. 
12:02:51 Downloaded http://a.com/aaaaa/2. 

这将有更详细的日志记录中间:

12:01:06 Downloaded (48 KB in 1.5s) from http://a.com/aaaaa/1 
12:01:08 Indexed http://a.com/aaaaa/1 (in 1.2s) 

12:02:36 Downloaded (153 KB in 1.3s) from http://a.com/aaaaa/2 
12:02:40 Indexed http://a.com/aaaaa/2 (in 1.6s)