hdfstore - VoidCC

hdfstore

2热度

1回答

hdfstore误差与大熊猫

追加，我得到以下错误： exportStore.append(key, hdfStoreLocal, index = False, data_columns = True) File "/usr/local/lib/python2.7/dist-packages/pandas-0.14.1-py2.7-linux-x86_64.egg/pandas/io/pytables.py", li

1热度

1回答

回来楠值HDFStore

存储我使用下面的代码与python/pandas存储在HDFStore有很多NaN值的大数据集后： with get_store(work_path+'/stores/store.h5') as store: for chunk in reader: for column in column_list: store.append('%s' % colum

3热度

1回答

使用Hadoop存储股票市场报价数据

我很开心学习Hadoop及其周围的各种项目，目前有两种不同的策略，我正在考虑构建一个系统来存储大量的市场报价数据，我刚刚开始使用Hadoop/HDSF和HBase，但希望有人可以帮助我种植系统种子，以后我不会再使用这些技术来垃圾。下面概述了我的系统和需求以及一些查询和数据使用用例，最后是我目前关于从我读过的小文档中找到最佳方法的想法。这是一个开放式问题，我很乐意喜欢任何有洞察力的答案，并接受最好的

1热度

2回答

大熊猫HDFStore：慢查询不匹配的字符串

我的问题是，当我试图寻找一个字符串不包含在DataFrame（它存储在hdf5文件中）时，它需要很长时间完成查询。例如：我有一个包含2 * 10^9行的df。它存储在HDF5文件中。我有一个名为“code”的字符串列，它被标记为“data_column”（因此它被索引）。当我搜索数据集中存在的代码（store.select（'df'，'code = valid_code'））时，大约需要10秒

4热度

1回答

在hdfstore中使用OR选择熊猫

我知道如何在大熊猫HDFStore.select中使用AND类型的查询，但是我怎样才能使用OR？例如，我有以下代码 import pandas as pd df1 = pd.DataFrame({'A': randn(100), 'B': randn(100), 'C': randn(100).cumsum()}, index=pd.bdate_

1热度

1回答

检查熊猫HDFStore中的PyTables节点是否为表格

是否有首选方法检查pandas HDFStore中的PyTables节点是否是表格？这有效，但NoSuchNodeError似乎不是API的一部分，所以也许我不应该依赖它。 In [34]: from tables.table import NoSuchNodeError In [35]: def is_tabular(store, key): try: store.ge

2热度

1回答

如何减少HDFStore的大小开销？

我正在试验不同的熊猫友好型存储方案的刻度数据。到目前为止，最快（在读写方面）一直在使用HDFStore和blosc压缩以及“固定”格式。 store = pd.HDFStore(path, complevel=9, complib='blosc') store.put(symbol, df) store.close() 我使用股票代码进行索引，因为这是我的常见访问模式。但是，该方案每个符号

1热度

1回答

通过使用HDFStore比较列来选择行

如何通过使用Pandas比较hdf5文件中的两列来选择某些行？ hdf5文件太大而无法加载到内存中。例如，我想选择列A和列B相等的行。数据框保存在文件'mydata.hdf5'中。谢谢。 import pandas as pd store = pd.HDFstore('mydata.hdf5') df = store.select('mydf',where='A=B') 这是行不通的。我知

3热度

1回答

在pandas中查看hdf5文件中的行数

我想知道是否有一种方便快捷的方式，并且无需加载整个文件，使用pandas获取使用pandas创建的hdf5文件中的行数？预先感谢您！

0热度

1回答

将多个文件或单个文件导入HDFStore

我将100个csv文件转换为数据框并将它们存储在HDFStore中。什么是一个利弊 - 存储csv文件100个不同HDFStore文件？ b - 将所有csv文件作为单独的项目存储在单个HDFStore中？除了性能问题，我问的问题是我有稳定性问题，我的HDFStore文件经常被损坏。所以，对我而言，单个HDFStore存在风险。但是，我想知道是否有单一商店的好处。

«
1
2
3
»