在KDD99 data set,一个巨大的连接第32和33功能的值的数量比100功能在KDD99数据集中的值是错误的?
我不明白为什么用100个连接的connection window
可以得到一个值,该值大于100的原因还大吗?我咨询了很多信息,但一无所获。
在KDD99 data set,一个巨大的连接第32和33功能的值的数量比100功能在KDD99数据集中的值是错误的?
我不明白为什么用100个连接的connection window
可以得到一个值,该值大于100的原因还大吗?我咨询了很多信息,但一无所获。
数据集包含每个连接的41 features。
这些功能获得了预处理TCP转储文件。
为此,TCP转储文件中的数据包信息汇总为连接。具体而言(http://kdd.ics.uci.edu/databases/kddcup99/task.html):
的连接是TCP的数据包的起始,并在一些公 结束定义的时间序列,它们之间的数据从一个源IP地址在一些明确定义的协议流至目标 IP地址。
有些功能(所谓的基于时间的流量特征)分2秒的时间窗口来计算。
其他功能(基于主机的流量功能)使用在多个连接(本例中为100)上估计的历史窗口。
基于主机的功能对跨越间隔长于2秒的攻击有用。
2秒和100连接是有些随意的值。
这两类功能的值没有上限(例如,在2秒间隔内连接到同一主机的 数目可能大于100)。
相同“应该是”真为:
32. | dst host count | count of connections having the same destination host
33. | dst host srv count | count of connections having the same
destination host and using the same service
的问题是,有没有文件,说明KDD的细节特征提取。主要参考是:
A Framework for Constructing Features and Models for Intrusion Detection Systems - 文科LEE/SALVATORE J. STOLFO
从中明显,bro-ids tools使用:
使用兄弟作为分组过滤和重新组装发动机。我们扩展了Bro以处理ICMP数据包,并对其数据包片段检测模块进行了更改,因为它在处理包含Teardrop或Ping-of-Death攻击的数据时崩溃。我们使用Bro“连接已完成”事件处理程序为每个连接输出汇总记录。
和
在兄弟的事件处理程序,我们补充说检查交互式TCP连接(例如,远程登录,FTP,SMTP等)的数据交换的功能。这些功能将值分配给一组“内容”功能,以指示数据内容是否提示可疑行为。
但这还不够。
dst host count
和dst host srv count
都在[0,255]
范围内。
的AI-IDS/kdd99_feature_extractor项目在Github上可以提取原始数据的第32和33功能(看看在stats*.cpp
文件),但:
有些功能可能无法精确计算同样的方法,KDD
#2相关的问题是:
非常感谢您为您详细解答,但我仍然有一个问题。在我看来,获得第32和第33个特征值的方法是检查当前连接之间的100个连接,然后如果一个连接合格,该特征的值将加1.但是,通过这种方式,我们不能得到一个大于100的值。 – tjhy01
我修改了我的答案。您可以从“AI-IDS/kdd99_feature_extractor”项目开始 – manlio
非常感谢您的回答,我很受启发 – tjhy01