etl

0热度

2回答

我想从我的数据库Cassandra中提取数据，并做一些转换。

0热度

1回答

我很难得到水壶正在使用的完整存储库路径。阅读变量帮助（link）指出我可以使用“Internal.Transformation.Repository.Directory”或“$ {Internal.Job.Repository.Directory}”，具体取决于它是作业还是转换。这实际上起作用，并以root身份返回以repo为文件的路径。因为我需要文件（或回购）的“完整路径” - 我尝试了“$

-2热度

1回答

生成MIS报表和仪表板使用开源技术

上午需要你的建议对以下情景：我们的一个客户有作为OLTP 8台的Postgres数据库服务器，现在要产生MIS报表/仪表板集成所有数据服务器。 - 大约有100个报告可以生成 - 每个数据库都会添加大约50k行 - 报告每月生成一次 - 它们在baremetals中运行所有设置 - 它们不会不想使用hadoop/spark，因为他们认为维护性会更高 - 他们希望使用opensource tech

1热度

1回答

从事件流自我加入日期的有效方式是什么？

我正在第一次参加一个活动流，所以自己加入一张桌子是我没有做过大规模的事情。我正在尝试编写SQL脚本，以便在用户登录后为我加载聊天大厅的时间。下面我为ETL提供了一个示例脚本。我想知道是否有更好的方法来加入我所做的事情。我也想过把子查询分成两个单独的表格并进行左连接，但不知道哪种方式被认为是最佳和更好的做法。我也想到做CTE。 DROP TABLE IF EXISTS event_stream;

0热度

1回答

将Greenplum数据库导出到Amazon S3作为.csv

假设情况 - 我有一个10节点的Greenplum集群，其中1000个表中的数据为100 TB，出于某些原因需要将其卸载到S3。理想情况下，最终结果是与数据库中的每个表对应的.csv文件。我有三种可能的方法，每种都有正面和负面。 COPY-有一个问题已经回答了分布式架构中psql COPY的问题，但这一切都必须经过主站，为100TB数据的移动创造了一个瓶颈。 gpcrondump - 这将为每个