blaze

0热度

1回答

我使用blaze查询csv和json的数据。我只需要查询id等于指定的id的记录？可能吗。 city = city[city.ID = 1] 虽然试图执行上面的代码显示语法错误：无效的语法

0热度

1回答

所以，我使用odo进行数据迁移，但是碰到这个错误传来： sqlalchemy.exc.DataError: (psycopg2.DataError) integer out of range 源和目标表都具有相同的架构，但在SQL语句在后端执行时，整数值与它们有0。就像在源表中的整数34如图34.0： [SQL: INSERT INTO table2 (col1, col2,col3) VAL

1热度

3回答

如何将blaze数据对象转换为json？

虽然试图在使用json.dumps中发生火焰错误时发生TypeError：对象不是JSON可序列化的。 data = Data("employee.json") json.dumps(data)

0热度

1回答

使用pandas - read_csv或read_sql或blaze将数据从postgres复制到ZODB？

我正在创建一个使用ZODB的新应用程序，我需要主要从postgres数据库导入遗留数据，但也需要从一些csv文件导入。数据的操作有限（sql连接合并链接表和创建属性，更改某些属性的名称，处理空列等）。有了postgres数据的一个子集，我做了一个转储到所有相关表的csv文件，将它们读入熊猫数据框并做了处理。这可行，但有部分原因是由于首先将数据传输到csv。我现在想要加载所有的数据（并摆脱错误）

0热度

2回答

如何在使用odo函数时解决utf-8错误？ OperationalError：（sqlite3.OperationalError）无法解码为UTF-8列

我是odo的新手。我有一个简单的功能来迁移数据库： from blaze import Data, odo, like def migrate(source, target, table_names=None): src_db = Data(source) tbl_names = (src_db.fields, table_names)[table_names is not

2热度

1回答

使用Blaze Data不支持的字符串编码（引擎）

有没有解决方法？我有一个使用SQL_Latin1_General_CP1_CI_AS排序规则设置的MSSQL表。 engine = create_engine('mssql+pyodbc://'+ServerName+'/'+Database+'?driver='+ServerDriver+'?charset=cp2150') 我能够把它与 prov_chunk = pd.read_sql(

4热度

2回答

指数万用行快速访问矩阵矩阵

我有一些非常大的矩阵（比方说百万行的顺序），我不能保留在内存中，我需要访问此矩阵的子采样在下降时间（不到一分钟...）。我开始寻找HDF5并结合numpy的和熊猫走出一条： http://web.datapark.io/yves/blaze.html http://blaze.pydata.org 但我发现它有点复杂，我不知道这是否是最好的解。还有其他解决方案吗？感谢编辑这里的那种我处理

1热度

1回答

当存储在bcolz中时数据大小被吹掉

我有一个包含〜7M行和3列，2个数字和1〜20M不同字符串uuids的数据集。这些数据以3G作为csv文件，Castra可以将其存储在2G左右。我想用这些数据测试bcolz。我试图 odo(dask.dataframe.from_castra('data.castra'), 'data.bcolz') 其中产生的数据的〜70G的磁盘上排出的inode和崩溃之前。将这样的数据集合到bco

17热度

2回答

如何将Parquet文件读入Pandas DataFrame？

如何在不设置Hadoop或Spark等集群计算基础架构的情况下将适中大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在笔记本电脑上用简单的Python脚本在内存中读取的适量数据。数据不驻留在HDFS上。它在本地文件系统上或可能在S3中。我不想启动和配置Hadoop，Hive或Spark等其他服务。我认为Blaze/Odo会做到这一点：Odo文档提到了Parque

0热度

1回答

什么是表示分层对象向量的好方法？

我有一个对象表示为嵌套字典\数组该集合中的所有对象都具有相同的架构，尽管数组中的条目数量可能因对象而异有所不同我正在寻找一种存储此数据的好方法，这将允许简单的批量操作。特别是，快速访问列\列作为numpy数组很重要（这是不使用一个简单的对象列表的主要原因）熊猫与MultiIndex是我的第一个想法，但我不相信它可以支持可变长度阵列