我有两个不同的文件,每个文件的内容来自不同的数据流。我从两个不同的文件中收集了来自这些流的一些数据。然后,我想搜索文件以查找任何类型的模式,以便在稍后阶段如果我从流中收集更多数据,我应该能够区分哪些数据属于哪个流(基于我发现的模式更早)。查找十六进制文件中的模式
该文件中包含的数据的一个示例可以是:b0 82 91 a2 c3 89 b0 82 4a e3 ....(更多字节)... 虽然我在这里占用了很少的字节,但我们可以找到上面两次出现的模式“b0 82”。所以输出结果应该显示模式和它未来的时间。类似的,我们可以有3字节模式或甚至更多的字节模式。
其他示例可以是:aa 00 a7 2f 7b 4c ....(更多字节)..... aa 01 a7 .........(更多字节)..... .aa 05 A7 ..... 我认为,即使这可以被认为是3个字节,其中两个字节(AA & A7)是固定的,中间的一个从00到05。
变化的图案这些两个例子我可以想到,虽然可能会有更多的图案。即使可能有一些隐藏的模式不能立即可视化。只要有助于在稍后阶段区分两股流股,整个想法是可行的。我想我现在更清楚地说明我的问题。请让我知道以下几件事:
我们该如何做这种类型的模式查找?
是否有任何工具或库可以帮助实现此目的?
还有哪种语言或工具可用于高效快速的开发?
数据挖掘领域可以为此目的提供帮助吗?如果是的话,如何继续?
你能更具体地说明你的意思是“模式”吗? – templatetypedef 2012-02-15 08:42:01
模式可以是任何可以与其余数据区分开来的任何模式。例如,它可以是任何字节,如0x4a或0x56或任何字节。或者甚至是像0x4a56那样的组合。此外,如果说有一些字节的5个最高有效位是相同的,而低3位是从000到111,那么这也会形成一个模式,因为5位在几个地方是相同的。这是我能想到的可能模式。还有可能是你会想到更多这样的模式,只有我想要的东西是他们应该容易区分。 – mezda 2012-02-15 09:00:17
这是不可能做到的,因为几乎任何东西都可以成为一种模式。你想用这个做什么?也许有更具体的问题? – templatetypedef 2012-02-15 09:44:55