我在/ project1目录下的hadoop文件系统中有一个文本文件名mr.txt。我需要编写python代码来读取文本文件的第一行,而无需将mr.txt文件下载到本地。但是我无法从hdfs打开mr.txt文件。 我曾尝试:如何从hdfs读取文件
open('hdfs:///project1/mr.txt','r')
我在/ project1目录下的hadoop文件系统中有一个文本文件名mr.txt。我需要编写python代码来读取文本文件的第一行,而无需将mr.txt文件下载到本地。但是我无法从hdfs打开mr.txt文件。 我曾尝试:如何从hdfs读取文件
open('hdfs:///project1/mr.txt','r')
安装PySpark。
text = sc.textFile('hdfs:///project1/mr.txt')
first_line = text.first()
谢谢@ cricket_007。有效 – Gokul
没有更详细地了解你的软件或者是运行...
您可以使用NFS server这样你就可以在本地安装HDFS量和访问它。如果此选项不适合您的需求,则应使用Hadoop Streaming。最后,如果你正在写一个Spark作业,你可以像访问本地FS一样访问HDFS。
“没有下载'mr.txt'”...呃,你必须这样做才能真正在某个节点上收集文件。 –