hdfstore

    2热度

    1回答

    我已经使用熊猫创建了一个大的(120GB; 10亿行)HDF5文件。初始创建HDF文件后,我添加到文件像这样: with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_columns=[])

    1热度

    1回答

    我使用熊猫来创建一个大的索引HDF5表。我想重新命名表格中12列中的2列。我宁愿不重建/重新索引表。 可这不复制所有数据(140GB)做些什么呢?我希望文件中只有几个元数据可以用正确的命令轻松地换出。 这次来到了我,因为我有几个“非天然”一栏包含空格的名字,并没有意识到这是一个问题,直到试图运行的SELECT语句。

    2热度

    1回答

    我正在尝试导入~12万条带有8列的记录到Python中。由于其巨大的尺寸,我的笔记本电脑内存不足以满足此需求。现在我试图将SQL数据导入HDF5文件格式。如果有人可以共享一段代码来查询SQL数据并将其以HDF5格式保存成块,那将会非常有帮助。我打算使用任何其他易于使用的文件格式。 我打算做一些基本的探索性分析,稍后可能会使用熊猫创建一些决策树/线性回归模型。 import pyodbc impo

    1热度

    1回答

    给出一个包含有一个熊猫HDFStore之间差异DataFrame: import pandas as pd import numpy.random as rd df = pd.DataFrame(rd.randn(int(1000)).reshape(500, 2), columns=list('ab')) store = pd.HDFStore('store.h5') store.ap

    1热度

    1回答

    我遵循这里的安装准则。 http://www.pytables.org/usersguide/installation.html 因此,无论何时我从PyTables/build/lib.linux-x86_64-2.7文件夹在iPython中运行此命令,它都可以正常工作。 In [1]: import pandas as pd In [2]: store = pd.HDFStore('store.

    0热度

    2回答

    我有一个熊猫数据框对象,我预先分配了400 000个条目。 2列是类型为datetime.datetime的时间戳和浮点数。 当我尝试在表中插入(覆盖)一行时,它看起来相当慢,这取决于表的大小,我得到类似0.044秒的东西。 我已经创建了一个整数索引,我正在使用这个索引来访问该行。 这里是我如何使用它: maxsize = 400000 data = pd.DataFrame({'ts' : d

    4热度

    1回答

    我在平面文件中使用Python Pandas/Pytables/H5py将平面文件转换为HDF5的几个TB数据(在子集中)查询和搜索。我打算用to_hdf之类的东西转换数据的每个小节并将它们存储在HDFStore中。 尽管存储的数据将永远不需要更改,但我可能需要稍后将数据附加到某个特定子部分,然后重新索引(用于查询)整个部分。我的问题是这样的:将数据追加到现有表(使用store.append),然

    5热度

    1回答

    考虑以下hdfstore和dataframes df和df2 import pandas as pd store = pd.HDFStore('test.h5') midx = pd.MultiIndex.from_product([range(2), list('XYZ')], names=list('AB')) df = pd.DataFrame(dict(C=range(6)),

    1热度

    2回答

    将存储在HDFS中的数据加载到HIVE中时,HDFS中的这些数据是否会被复制到HIVE所使用的不同格式中?还是它使用原始文件来存储/选择/插入/修改数据? 上下文: LOAD DATA INPATH'/home/user/sample.txt'OVERWRITE INTO TABLE employee; HIVE是否使用/home/user/sample.txt总是存储/选择/插入/修改数据,还是

    4热度

    1回答

    我正在使用大熊猫hdfstore处理来自正在进行的迭代过程的数据帧。在每次迭代中,我追加到hdfstore中的表格。这里是一个玩具例子:对hdfstore.append抛出各种异常 import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string