2010-02-10 28 views
2

我正处于实施工具的第一阶段,以比较2个市场数据源,以便向我的老板证明新开发源的质量(意思是没有回归,没有错过更新或错误),并且证明延迟改善。如何比较市场数据馈送源的质量和延迟改进?

所以工具,我需要必须能够检查更新差异以及告知其来源是最好的(在延迟期限)。

具体而言,参考来源可能是路透社,而另一个是我们内部开发的饲料处理程序。人们警告我说,更新可能不会按照路由器实施可能与我们完全不同的顺序进行。因此,基于更新可能以相同顺序到达的事实的简单算法可能不起作用。

我的第一个想法是使用指纹进行比较饲料来源,如Shazaam应用确实找到您要提交管的称号。谷歌告诉我这是基于FFT。我想知道信号处理理论是否可以在市场准入应用中表现良好。

我想知道在这个领域你自己的经验,是可以开发一个相当准确的算法来满足需求?你自己的想法是什么?你如何看待基于指纹的比较?我看到周围的公司行为多个数据源饲料

+0

我是开发这种工具的公司的一部分。这不是微不足道的事情。这是确定性的 - 不是启发式的。随时与我联系获取信息。 – Tim 2010-05-11 21:30:10

回答

1

如果提供的数据交换有这方面提供了实现数据的一些唯一标识符是相当简单,但并不容易。

实质上,您有一个订阅两个订阅源的应用程序。 (你可以用基于嗅探软件来做到这一点,也可以用于非侵入式监测/测量 - 我也可以试着解决这个问题)

你会保留两个列表(或其他任何记录“不匹配”样本的方法每个提要)的不匹配的数据/更新。随着每次更新进入,您都需要从其他数据源中查找另一个列表中的相应项目。当您成功匹配时,您可以保存该配对。每次更新时,都必须以某种方式为其分配一个“时间戳” - 可能是本地计算机的时间。由于这种简单情况下的起源是相同的交换,因此确定相对延迟相当容易。

此方法需要为数据编写订阅应用程序。

有很多的问题,如处理丢失的更新和超时无与伦比的数据,如何处理交流或饲料可能不会更新提供了独特的集成开发环境,围绕数据工作的供应商的错误WRT本地VS UTC时间等

嗅探数据是相似的,但您可以通过pcap或硬件捕获卡捕获数据,然后根据数据包的端点解析数据流。这比直接订阅要困难得多,但其优势在于可以测量的数据集非侵入性和相当灵活。

0

一种方法只是维持一个启发由获悉饲料往往是最准确的历史,因此他们的数据给予更大的权重。

当然,所有类型的市场数据公司行为可能是最低的一个卷所以这种技术可能不会扩展到打勾数据!

+0

我觉得这个领域也想要非启发式匹配和分析... – Tim 2010-05-11 21:32:13