我正在处理作为以下形式的键值对的大型数据集:每个新行分隔记录,数据集包含一个键:每行的值对。如何使用Spark将大型文本文件转换为关系模式?
cat_1/key_1: a value
cat_1/key_2: a value
cat_2/key_3: a value
cat_1/key_1: another value
cat_2/key_3: another value
我的目标是将这个文本文件转换成一个数据框,其中的记录可以很容易地保存在一个表中。
在另一个编程范例中,我可能会迭代该文件,并在遇到换行符时将记录写入另一个数据结构。不过,我正在寻找一种更加惯用的方式来完成这个Spark。
对于在创建新的RDD之后处理\n
作为记录分隔符,其中每行都被映射到line.split(": ")
,我仍被卡在Spark中的最佳方法。
你需要提供你尝试过什么(代码明智)至今,为了让我们的HLEP [斯卡拉解析多条记录]的 –
可能的复制(http://stackoverflow.com/q/34157104/ 1560062) – zero323