hdfstore

    2热度

    1回答

    追加,我得到以下错误: exportStore.append(key, hdfStoreLocal, index = False, data_columns = True) File "/usr/local/lib/python2.7/dist-packages/pandas-0.14.1-py2.7-linux-x86_64.egg/pandas/io/pytables.py", li

    1热度

    1回答

    存储 我使用下面的代码与python/pandas存储在HDFStore有很多NaN值的大数据集后: with get_store(work_path+'/stores/store.h5') as store: for chunk in reader: for column in column_list: store.append('%s' % colum

    3热度

    1回答

    我很开心学习Hadoop及其周围的各种项目,目前有两种不同的策略,我正在考虑构建一个系统来存储大量的市场报价数据,我刚刚开始使用Hadoop/HDSF和HBase,但希望有人可以帮助我种植系统种子,以后我不会再使用这些技术来垃圾。下面概述了我的系统和需求以及一些查询和数据使用用例,最后是我目前关于从我读过的小文档中找到最佳方法的想法。这是一个开放式问题,我很乐意喜欢任何有洞察力的答案,并接受最好的

    1热度

    2回答

    我的问题是,当我试图寻找一个字符串不包含在DataFrame(它存储在hdf5文件中)时,它需要很长时间完成查询。例如: 我有一个包含2 * 10^9行的df。它存储在HDF5文件中。我有一个名为“code”的字符串列,它被标记为“data_column”(因此它被索引)。 当我搜索数据集中存在的代码(store.select('df','code = valid_code'))时,大约需要10秒

    4热度

    1回答

    我知道如何在大熊猫HDFStore.select中使用AND类型的查询,但是我怎样才能使用OR? 例如,我有以下代码 import pandas as pd df1 = pd.DataFrame({'A': randn(100), 'B': randn(100), 'C': randn(100).cumsum()}, index=pd.bdate_

    1热度

    1回答

    是否有首选方法检查pandas HDFStore中的PyTables节点是否是表格?这有效,但NoSuchNodeError似乎不是API的一部分,所以也许我不应该依赖它。 In [34]: from tables.table import NoSuchNodeError In [35]: def is_tabular(store, key): try: store.ge

    2热度

    1回答

    我正在试验不同的熊猫友好型存储方案的刻度数据。到目前为止,最快(在读写方面)一直在使用HDFStore和blosc压缩以及“固定”格式。 store = pd.HDFStore(path, complevel=9, complib='blosc') store.put(symbol, df) store.close() 我使用股票代码进行索引,因为这是我的常见访问模式。但是,该方案每个符号

    1热度

    1回答

    如何通过使用Pandas比较hdf5文件中的两列来选择某些行? hdf5文件太大而无法加载到内存中。例如,我想选择列A和列B相等的行。数据框保存在文件'mydata.hdf5'中。谢谢。 import pandas as pd store = pd.HDFstore('mydata.hdf5') df = store.select('mydf',where='A=B') 这是行不通的。我知

    3热度

    1回答

    我想知道是否有一种方便快捷的方式,并且无需加载整个文件,使用pandas获取使用pandas创建的hdf5文件中的行数? 预先感谢您!

    0热度

    1回答

    我将100个csv文件转换为数据框并将它们存储在HDFStore中。 什么是 一个利弊 - 存储csv文件100个不同HDFStore文件? b - 将所有csv文件作为单独的项目存储在单个HDFStore中? 除了性能问题,我问的问题是我有稳定性问题,我的HDFStore文件经常被损坏。所以,对我而言,单个HDFStore存在风险。但是,我想知道是否有单一商店的好处。