1
我有一堆列,样本如我的数据显示如下所示。 我需要检查列的错误,并将不得不生成两个输出文件。 我正在使用Apache Spark 2.0,我希望以有效的方式做到这一点。使用火花数据框进行字段数据验证
Schema Details
---------------
EMPID - (NUMBER)
ENAME - (STRING,SIZE(50))
GENDER - (STRING,SIZE(1))
Data
----
EMPID,ENAME,GENDER
1001,RIO,M
1010,RICK,MM
1015,123MYA,F
我excepected输出文件应该如图6-8所示:
1.
EMPID,ENAME,GENDER
1001,RIO,M
1010,RICK,NULL
1015,NULL,F
2.
EMPID,ERROR_COLUMN,ERROR_VALUE,ERROR_DESCRIPTION
1010,GENDER,"MM","OVERSIZED"
1010,GENDER,"MM","VALUE INVALID FOR GENDER"
1015,ENAME,"123MYA","NAME SHOULD BE A STRING"
感谢
谢谢兄弟。我尝试过使用这种方法,它运行良好。但如果我在单个列上有多个验证(这里是性别),我不知道如何处理它或返回。 – 1pluszara
如果它适合您,请您接受答案?同时我会想一想你的问题,如果我能拿出一些东西 –
完成。一旦我的声望超过15,我只能赞同。我在这里是一个新手。谢谢 – 1pluszara