2017-02-24 71 views
2

我在/ project1目录下的hadoop文件系统中有一个文本文件名mr.txt。我需要编写python代码来读取文本文件的第一行,而无需将mr.txt文件下载到本地。但是我无法从hdfs打开mr.txt文件。 我曾尝试:如何从hdfs读取文件

open('hdfs:///project1/mr.txt','r') 
+0

“没有下载'mr.txt'”...呃,你必须这样做才能真正在某个节点上收集文件。 –

回答

1

安装PySpark。

text = sc.textFile('hdfs:///project1/mr.txt') 
first_line = text.first() 
+0

谢谢@ cricket_007。有效 – Gokul

0

没有更详细地了解你的软件或者是运行...

您可以使用NFS server这样你就可以在本地安装HDFS量和访问它。如果此选项不适合您的需求,则应使用Hadoop Streaming。最后,如果你正在写一个Spark作业,你可以像访问本地FS一样访问HDFS。