我在星火加载的JSON文件,大致,它看起来像:加工定制(Java)的
root
|-- datasetid: string (nullable = true)
|-- fields: struct (nullable = true)
...
| |-- type_description: string (nullable = true)
我DF是把它变成:
df = df.withColumn("desc", df.col("fields.type_description"));
所有罚款,但type_description
的值看起来像:“1 - 我的描述类型”。
理想情况下,我想让我的df仅包含文本部分,例如“我的描述类型”。我知道如何做到这一点,但我怎样才能通过Spark?
我沿着线的一些希望:
df = df.withColumn("desc", df.col("fields.type_description").call(/* some kind of transformation class/method*/));
谢谢!
那么你究竟在寻找什么?正则表达式?子?你能否更新这个问题来反映这个问题? – zero323
理想情况下,它可能是任何东西......在这种情况下,我会管理一个子字符串和修剪(从来没有超过2位数字)......但我有其他更有趣的情况,如解析,列之间的值的串联,打电话给乔达时代等。 – jgp