2015-10-16 61 views
0

我正在从PySpark中的多个S3文件中读取数据。 S3键包含创建文件的日历日期,我想在数据和该日期之间进行连接。有没有办法在文件和文件名中的数据行之间进行连接?在Spark/PySpark中使用文件名加入数据

+1

我不会说,但这是一个质量很低的问题。请提供一个最小化,完整和可验证的示例,以及迄今为止尝试的内容! – eliasah

+0

我用我写的代码没有问题。我在问一个API是否可行的问题。你如何建议我为可能不可能的事情提供一个例子? – thornate

回答

1

您可以添加一列包含文件名,我用这个后来将它们合并后,以确定各行的源数据帧:

from pyspark.sql.functions import lit 

filename = 'myawesomefile.csv' 

df_new = df.withColumn('file_name', lit(filename)) 
+0

虽然我正在使用RDD。我可能已经能够将代码切换到使用数据框,但是我没有深入了解Spark SQL。 – thornate

相关问题