我正在从PySpark中的多个S3文件中读取数据。 S3键包含创建文件的日历日期,我想在数据和该日期之间进行连接。有没有办法在文件和文件名中的数据行之间进行连接?在Spark/PySpark中使用文件名加入数据
0
A
回答
0
这里是我落得这样做:
我重写了LineRecordReader Hadoop类,以便它包含每行中的文件名,然后重写TextInputFormat以使用我的新LineRecordReader。
然后我使用newAPIHadoopFile函数加载文件。
链接:
LineRecordReader:http://tinyurl.com/linerecordreader
的TextInputFormat:http://tinyurl.com/textinputformat
newAPIHadoopFile: “欢迎来到SO” http://tinyurl.com/newapihadoopfile
1
您可以添加一列包含文件名,我用这个后来将它们合并后,以确定各行的源数据帧:
from pyspark.sql.functions import lit
filename = 'myawesomefile.csv'
df_new = df.withColumn('file_name', lit(filename))
+0
虽然我正在使用RDD。我可能已经能够将代码切换到使用数据框,但是我没有深入了解Spark SQL。 – thornate
相关问题
- 1. 在数据库中插入文件名
- 2. 使用PowerShell基于文件名将数据插入文件
- 3. ANT:加载文件名并从文件名中提取数据
- 4. 使用文本文件将文件名添加到列导入
- 5. 使用控件的列名在sqlserver中插入数据。 c#
- 6. 加载文本文件导入数据库使用python
- 7. 在不使用文件输入流的情况下使用poi在excel中添加数据url数据url
- 8. 使用javascript在pdf文件中嵌入数字签名
- 9. 使用smo重命名数据文件
- 10. 插入文件名到数据库
- 11. 如何使用逻辑名称附加数据库文件?
- 12. 使用java插入xml文件数据到数据库中?
- 13. 在数据框中插入文件名作为列值
- 14. 将数据文件追加到使用python的文件中
- 15. 如何在文件中使用Php通过按ID增加来写入数据
- 16. Python中加入日期和文件名
- 17. 如何使用SSIS将文件名,文件大小,reciveddate加载到数据库
- 18. 写入使用Python一个CSV文件并添加数据
- 19. 如何使用pycrypto将加密数据写入文件?
- 20. 如何在python中用文件名重命名数据框?
- 21. 使用Numpy加载大数据文件?
- 22. 使用UTL_FILE在循环中将数据写入平面文件
- 23. 在eclipse中使用java代码插入数据到csv文件
- 24. 如何使用jQuery在本地JSON文件中写入数据?
- 25. 使用Swift在自定义文件夹中写入数据
- 26. 数据库名称不包含在文件资源导入文件的HREF中
- 27. 使用tryCatch在R中加载数据文件
- 28. 使用FileInputStream/Cipher在Android中加密/解密数据库文件
- 29. 在资源文件中嵌入数据
- 30. 在php中导入excel文件数据
我不会说,但这是一个质量很低的问题。请提供一个最小化,完整和可验证的示例,以及迄今为止尝试的内容! – eliasah
我用我写的代码没有问题。我在问一个API是否可行的问题。你如何建议我为可能不可能的事情提供一个例子? – thornate