功能在KDD99数据集中的值是错误的？

在KDD99 data set，一个巨大的连接第32和33功能的值的数量比100功能在KDD99数据集中的值是错误的？

我不明白为什么用100个连接的connection window可以得到一个值，该值大于100的原因还大吗？我咨询了很多信息，但一无所获。

来源

2017-09-15 tjhy01

数据集包含每个连接的41 features。

这些功能获得了预处理TCP转储文件。

为此，TCP转储文件中的数据包信息汇总为连接。具体而言（http://kdd.ics.uci.edu/databases/kddcup99/task.html）：

的连接是TCP的数据包的起始，并在一些公结束定义的时间序列，它们之间的数据从一个源IP地址在一些明确定义的协议流至目标 IP地址。

有些功能（所谓的基于时间的流量特征）分2秒的时间窗口来计算。

其他功能（基于主机的流量功能）使用在多个连接（本例中为100）上估计的历史窗口。

基于主机的功能对跨越间隔长于2秒的攻击有用。

2秒和100连接是有些随意的值。

这两类功能的值没有上限（例如，在2秒间隔内连接到同一主机的数目可能大于100）。

相同“应该是”真为：

32. | dst host count | count of connections having the same destination host 



33. | dst host srv count | count of connections having the same 
          destination host and using the same service

的问题是，有没有文件，说明KDD的细节特征提取。主要参考是：

A Framework for Constructing Features and Models for Intrusion Detection Systems - 文科LEE/SALVATORE J. STOLFO

从中明显，bro-ids tools使用：

使用兄弟作为分组过滤和重新组装发动机
。我们扩展了Bro以处理ICMP数据包，并对其数据包片段检测模块进行了更改，因为它在处理包含Teardrop或Ping-of-Death攻击的数据时崩溃。我们使用Bro“连接已完成”事件处理程序为每个连接输出汇总记录。

和

在兄弟的事件处理程序，我们补充说检查交互式TCP连接（例如，远程登录，FTP，SMTP等）的数据交换的功能。这些功能将值分配给一组“内容”功能，以指示数据内容是否提示可疑行为。

但这还不够。

dst host count和dst host srv count都在[0,255]范围内。

的AI-IDS/kdd99_feature_extractor项目在Github上可以提取原始数据的第32和33功能（看看在stats*.cpp文件），但：

有些功能可能无法精确计算同样的方法，KDD

＃2相关的问题是：

来源

2017-09-15 08:31:04 manlio

非常感谢您为您详细解答，但我仍然有一个问题。在我看来，获得第32和第33个特征值的方法是检查当前连接之间的100个连接，然后如果一个连接合格，该特征的值将加1.但是，通过这种方式，我们不能得到一个大于100的值。 – tjhy01

我修改了我的答案。您可以从“AI-IDS/kdd99_feature_extractor”项目开始 – manlio

非常感谢您的回答，我很受启发 – tjhy01

功能在KDD99数据集中的值是错误的？

回答

相关问题