blaze

    0热度

    1回答

    我使用blaze查询csv和json的数据。我只需要查询id等于指定的id的记录?可能吗。 city = city[city.ID = 1] 虽然试图执行上面的代码显示 语法错误:无效的语法

    0热度

    1回答

    所以,我使用odo进行数据迁移,但是碰到这个错误传来: sqlalchemy.exc.DataError: (psycopg2.DataError) integer out of range 源和目标表都具有相同的架构,但在SQL语句在后端执行时,整数值与它们有0。就像在源表中的整数34如图34.0: [SQL: INSERT INTO table2 (col1, col2,col3) VAL

    1热度

    3回答

    虽然试图在使用json.dumps中发生火焰错误时发生TypeError:对象不是JSON可序列化的。 data = Data("employee.json") json.dumps(data)

    0热度

    1回答

    我正在创建一个使用ZODB的新应用程序,我需要主要从postgres数据库导入遗留数据,但也需要从一些csv文件导入。数据的操作有限(sql连接合并链接表和创建属性,更改某些属性的名称,处理空列等)。 有了postgres数据的一个子集,我做了一个转储到所有相关表的csv文件,将它们读入熊猫数据框并做了处理。这可行,但有部分原因是由于首先将数据传输到csv。 我现在想要加载所有的数据(并摆脱错误)

    0热度

    2回答

    我是odo的新手。我有一个简单的功能来迁移数据库: from blaze import Data, odo, like def migrate(source, target, table_names=None): src_db = Data(source) tbl_names = (src_db.fields, table_names)[table_names is not

    2热度

    1回答

    有没有解决方法? 我有一个使用SQL_Latin1_General_CP1_CI_AS排序规则设置的MSSQL表。 engine = create_engine('mssql+pyodbc://'+ServerName+'/'+Database+'?driver='+ServerDriver+'?charset=cp2150') 我能够把它与 prov_chunk = pd.read_sql(

    4热度

    2回答

    我有一些非常大的矩阵(比方说百万行的顺序),我不能保留在内存中,我需要访问此矩阵的子采样在下降时间(不到一分钟...)。 我开始寻找HDF5并结合numpy的和熊猫走出一条: http://web.datapark.io/yves/blaze.html http://blaze.pydata.org 但我发现它有点复杂,我不知道这是否是最好的解。 还有其他解决方案吗? 感谢 编辑 这里的那种我处理

    1热度

    1回答

    我有一个包含〜7M行和3列,2个数字和1〜20M不同字符串uuids的数据集。这些数据以3G作为csv文件,Castra可以将其存储在2G左右。 我想用这些数据测试bcolz。 我试图 odo(dask.dataframe.from_castra('data.castra'), 'data.bcolz') 其中产生的数据的〜70G的磁盘 上排出的inode和崩溃之前。 将这样的数据集合到bco

    17热度

    2回答

    如何在不设置Hadoop或Spark等集群计算基础架构的情况下将适中大小的Parquet数据集读入内存中的Pandas DataFrame?这只是我想在笔记本电脑上用简单的Python脚本在内存中读取的适量数据。数据不驻留在HDFS上。它在本地文件系统上或可能在S3中。我不想启动和配置Hadoop,Hive或Spark等其他服务。 我认为Blaze/Odo会做到这一点:Odo文档提到了Parque

    0热度

    1回答

    我有一个对象表示为嵌套字典\数组 该集合中的所有对象都具有相同的架构,尽管数组中的条目数量可能因对象而异有所不同 我正在寻找一种存储此数据的好方法,这将允许简单的批量操作。 特别是,快速访问列\列作为numpy数组很重要(这是不使用一个简单的对象列表的主要原因) 熊猫与MultiIndex是我的第一个想法,但我不相信它可以支持可变长度阵列