我有一个非计算机相关的数据记录器,它从现场收集数据。这些数据以文本文件的形式存储,我手动将这些文件整理并整理。目前的格式是每个记录器每年通过一个csv文件。每个文件大约4,000,000行×7个记录器×5年=大量数据。一些数据被组织为箱子item_type,item_class,item_dimension_class,和其他数据是更加独特的,如item_weight,item_color,date_collected等...关于在网上发布的大数据集的统计分析
目前,我做数据统计分析使用我写的python/numpy/matplotlib程序。它工作正常,但问题是,我是唯一可以使用它的人,因为它和数据都在我的电脑上。
我想使用postgres数据库在网上发布数据;然而,我需要找到或实现一个统计工具,它需要一个大的postgres表,并在足够的时间范围内返回统计结果。我对网络的python不熟悉;不过,我在网页方面熟练使用PHP,在离线方面使用python。
应允许用户创建自己的直方图,数据分析。例如,用户可以搜索在第x周和第y周之间发送蓝色的所有商品,而另一个用户可以搜索按整小时排序所有商品的小时分布。
我正在考虑创建和索引我自己的统计工具,或者自动化过程以模拟大多数查询。这似乎效率低下。
我期待着听到您的想法
感谢
非常感谢您的建议..交叉手指 – dassouki 2010-04-20 11:15:53