hdfstore

2热度

1回答

pandas.HDFStore：如何修改现有商店的“data_columns”？我想添加索引到不在数据列中的列

我已经使用熊猫创建了一个大的（120GB; 10亿行）HDF5文件。初始创建HDF文件后，我添加到文件像这样： with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_columns=[])

1热度

1回答

HDF5：有没有办法重命名现有HDF5表中的列名？

我使用熊猫来创建一个大的索引HDF5表。我想重新命名表格中12列中的2列。我宁愿不重建/重新索引表。可这不复制所有数据（140GB）做些什么呢？我希望文件中只有几个元数据可以用正确的命令轻松地换出。这次来到了我，因为我有几个“非天然”一栏包含空格的名字，并没有意识到这是一个问题，直到试图运行的SELECT语句。

2热度

1回答

从SQL服务器导入海量数据集到HDF5

我正在尝试导入~12万条带有8列的记录到Python中。由于其巨大的尺寸，我的笔记本电脑内存不足以满足此需求。现在我试图将SQL数据导入HDF5文件格式。如果有人可以共享一段代码来查询SQL数据并将其以HDF5格式保存成块，那将会非常有帮助。我打算使用任何其他易于使用的文件格式。我打算做一些基本的探索性分析，稍后可能会使用熊猫创建一些决策树/线性回归模型。 import pyodbc impo

1热度

1回答

熊猫HDFStore：使用选择功能，可直接进入

给出一个包含有一个熊猫HDFStore之间差异DataFrame： import pandas as pd import numpy.random as rd df = pd.DataFrame(rd.randn(int(1000)).reshape(500, 2), columns=list('ab')) store = pd.HDFStore('store.h5') store.ap

1热度

1回答

ImportError：HDFStore需要PyTables，“没有模块命名表”

我遵循这里的安装准则。 http://www.pytables.org/usersguide/installation.html 因此，无论何时我从PyTables/build/lib.linux-x86_64-2.7文件夹在iPython中运行此命令，它都可以正常工作。 In [1]: import pandas as pd In [2]: store = pd.HDFStore('store.

0热度

2回答

熊猫数据框和速度

我有一个熊猫数据框对象，我预先分配了400 000个条目。 2列是类型为datetime.datetime的时间戳和浮点数。当我尝试在表中插入（覆盖）一行时，它看起来相当慢，这取决于表的大小，我得到类似0.044秒的东西。我已经创建了一个整数索引，我正在使用这个索引来访问该行。这里是我如何使用它： maxsize = 400000 data = pd.DataFrame({'ts' : d

4热度

1回答

HDFStore：将数据附加到现有表并将其重新索引与创建新表之间的效率

我在平面文件中使用Python Pandas/Pytables/H5py将平面文件转换为HDF5的几个TB数据（在子集中）查询和搜索。我打算用to_hdf之类的东西转换数据的每个小节并将它们存储在HDFStore中。尽管存储的数据将永远不需要更改，但我可能需要稍后将数据附加到某个特定子部分，然后重新索引（用于查询）整个部分。我的问题是这样的：将数据追加到现有表（使用store.append），然

5热度

1回答

我可以更新HDFStore吗？

考虑以下hdfstore和dataframes df和df2 import pandas as pd store = pd.HDFStore('test.h5') midx = pd.MultiIndex.from_product([range(2), list('XYZ')], names=list('AB')) df = pd.DataFrame(dict(C=range(6)),

1热度

2回答

在Hive中执行LOAD DATA时，它是否复制数据？

将存储在HDFS中的数据加载到HIVE中时，HDFS中的这些数据是否会被复制到HIVE所使用的不同格式中？还是它使用原始文件来存储/选择/插入/修改数据？上下文： LOAD DATA INPATH'/home/user/sample.txt'OVERWRITE INTO TABLE employee; HIVE是否使用/home/user/sample.txt总是存储/选择/插入/修改数据，还是

4热度

1回答

如何在追加失败时有效地重建熊猫hdfstore表格

我正在使用大熊猫hdfstore处理来自正在进行的迭代过程的数据帧。在每次迭代中，我追加到hdfstore中的表格。这里是一个玩具例子：对hdfstore.append抛出各种异常 import pandas as pd from pandas import HDFStore import numpy as np from random import choice from string