回答

0

数据集包含每个连接的41 features

这些功能获得了预处理TCP转储文件。

为此,TCP转储文件中的数据包信息汇总为连接。具体而言(http://kdd.ics.uci.edu/databases/kddcup99/task.html):

的连接是TCP的数据包的起始,并在一些公 结束定义的时间序列,它们之间的数据从一个源IP地址在一些明确定义的协议流至目标 IP地址。

有些功能(所谓的基于时间的流量特征)分2秒的时间窗口来计算。

其他功能(基于主机的流量功能)使用在多个连接(本例中为100)上估计的历史窗口。

基于主机的功能对跨越间隔长于2秒的攻击有用。

2秒和100连接是有些随意的值。

这两类功能的值没有上限(例如,在2秒间隔内连接到同一主机的 数目可能大于100)。

相同“应该是”真为:

32. | dst host count | count of connections having the same destination host 



33. | dst host srv count | count of connections having the same 
          destination host and using the same service 

的问题是,有没有文件,说明KDD的细节特征提取。主要参考是:

A Framework for Constructing Features and Models for Intrusion Detection Systems - 文科LEE/SALVATORE J. STOLFO

从中明显,bro-ids tools使用:

使用兄弟作为分组过滤和重新组装发动机

。我们扩展了Bro以处理ICMP数据包,并对其数据包片段检测模块进行了更改,因为它在处理包含Teardrop或Ping-of-Death攻击的数据时崩溃。我们使用Bro“连接已完成”事件处理程序为每个连接输出汇总记录。

在兄弟的事件处理程序,我们补充说检查交互式TCP连接(例如,远程登录,FTP,SMTP等)的数据交换的功能。这些功能将值分配给一组“内容”功能,以指示数据内容是否提示可疑行为。

但这还不够。

dst host countdst host srv count都在[0,255]范围内。

AI-IDS/kdd99_feature_extractor项目在Github上可以提取原始数据的第32和33功能(看看在stats*.cpp文件),但:

有些功能可能无法精确计算同样的方法,KDD

#2相关的问题是:

+0

非常感谢您为您详细解答,但我仍然有一个问题。在我看来,获得第32和第33个特征值的方法是检查当前连接之间的100个连接,然后如果一个连接合格,该特征的值将加1.但是,通过这种方式,我们不能得到一个大于100的值。 – tjhy01

+0

我修改了我的答案。您可以从“AI-IDS/kdd99_feature_extractor”项目开始 – manlio

+0

非常感谢您的回答,我很受启发 – tjhy01