2010-04-19 41 views
4

我有一个非计算机相关的数据记录器,它从现场收集数据。这些数据以文本文件的形式存储,我手动将这些文件整理并整理。目前的格式是每个记录器每年通过一个csv文件。每个文件大约4,000,000行×7个记录器×5年=大量数据。一些数据被组织为箱子item_type,item_class,item_dimension_class,和其他数据是更加独特的,如item_weight,item_color,date_collected等...关于在网上发布的大数据集的统计分析

目前,我做数据统计分析使用我写的python/numpy/matplotlib程序。它工作正常,但问题是,我是唯一可以使用它的人,因为它和数据都在我的电脑上。

我想使用postgres数据库在网上发布数据;然而,我需要找到或实现一个统计工具,它需要一个大的postgres表,并在足够的时间范围内返回统计结果。我对网络的python不熟悉;不过,我在网页方面熟练使用PHP,在离线方面使用python。

应允许用户创建自己的直方图,数据分析。例如,用户可以搜索在第x周和第y周之间发送蓝色的所有商品,而另一个用户可以搜索按整小时排序所有商品的小时分布。

我正在考虑创建和索引我自己的统计工具,或者自动化过程以模拟大多数查询。这似乎效率低下。

我期待着听到您的想法

感谢

回答

1

我觉得你可以利用你目前组合(蟒蛇/ numpy的/ matplotlib)完全,如果用户数量不是太大。我做了一些类似的工作,我的数据大小超过10g。数据存储在一些sqlite文件中,我使用numpy分析数据,PIL/matplotlib生成图表文件(png,gif),cherrypy作为web服务器,mako作为模板语言。

如果您需要更多的服务器/客户端数据库,那么您可以迁移到postgresql,但是如果您使用Python Web框架(如cherrypy),仍然可以充分使用当前的程序。

+0

非常感谢您的建议..交叉手指 – dassouki 2010-04-20 11:15:53