etl

    0热度

    2回答

    我想从我的数据库Cassandra中提取数据,并做一些转换。

    0热度

    1回答

    我很难得到水壶正在使用的完整存储库路径。阅读变量帮助(link)指出我可以使用“Internal.Transformation.Repository.Directory”或“$ {Internal.Job.Repository.Directory}”,具体取决于它是作业还是转换。这实际上起作用,并以root身份返回以repo为文件的路径。 因为我需要文件(或回购)的“完整路径” - 我尝试了“$

    -2热度

    1回答

    上午需要你的建议对以下情景: 我们的一个客户有作为OLTP 8台的Postgres数据库服务器,现在要产生MIS报表/仪表板集成所有数据服务器。 - 大约有100个报告可以生成 - 每个数据库都会添加大约50k行 - 报告每月生成一次 - 它们在baremetals中运行所有设置 - 它们不会不想使用hadoop/spark,因为他们认为维护性会更高 - 他们希望使用opensource tech

    1热度

    1回答

    我正在第一次参加一个活动流,所以自己加入一张桌子是我没有做过大规模的事情。我正在尝试编写SQL脚本,以便在用户登录后为我加载聊天大厅的时间。下面我为ETL提供了一个示例脚本。我想知道是否有更好的方法来加入我所做的事情。我也想过把子查询分成两个单独的表格并进行左连接,但不知道哪种方式被认为是最佳和更好的做法。我也想到做CTE。 DROP TABLE IF EXISTS event_stream;

    0热度

    1回答

    假设情况 - 我有一个10节点的Greenplum集群,其中1000个表中的数据为100 TB,出于某些原因需要将其卸载到S3。理想情况下,最终结果是与数据库中的每个表对应的.csv文件。 我有三种可能的方法,每种都有正面和负面。 COPY-有一个问题已经回答了分布式架构中psql COPY的问题,但这一切都必须经过主站,为100TB数据的移动创造了一个瓶颈。 gpcrondump - 这将为每个

    -1热度

    1回答

    假设我们有200名学生和6个科目。输入列 Name | Subject1 | Subject2 | ... through Subject 6 输出只有3列: Name | Subject | Highest Score 我们需要受明智最高的射手,主题名称一起和得分作为输出。我们如何在Informatica级别执行此操作?我们如何在不使用union的情况下在SQL级别执行此操作? 样本数据

    0热度

    1回答

    如何使用Apache NIFI作为具有源作为HDFS &目标的Oracle数据库的ETL过程。 Apache NIFI与其他ETL工具(如Pentaho,Datastage等)相比有什么限制。

    0热度

    1回答

    我进入DW测试并需要比较源数据到目标数据。源数据存储在hive/RDBMS中,而目标数据加载到Hbase中。我是Hbase的新手。任何人都可以帮助我采取我可以采取的方法。我正在寻找的是与“MINUS”类似的功能。可能吗 ?

    2热度

    1回答

    我正在使用NIFI jsontoavro-> avrotoorc-> puthdfs。但面临以下问题。 1)单个ORC文件正在保存在HDFS上。我没有使用任何压缩。 2)当我尝试访问这些文件时,他们给出了像缓冲存储器一样的错误。 感谢您的帮助。

    0热度

    2回答

    我正在开发ETL。第一步是文本文件输入,它将来自“附加输出字段”的一些元数据添加到流中,包括文件名和上次修改。 我必须向DB进行查询,以验证具有最后修改日期时间的文件名是否已经被处理。如果是这样,流必须停止,并且下一步不能被处理。 这可能吗?我用google搜索了一下,发现没有例子。