我刚开始使用Spark。我尝试按照this教程(我使用Python)。如何看到RDD可用于Spark?
由于前两句我看到以下内容:
星火的主要抽象是项目的分布式集合 称为弹性分布式数据集(RDD)。可以通过 Hadoop InputFormats(例如HDFS文件)或通过转换其他 RDD创建RDD。让我们做一个新RDD从README文件的文本在 星火源目录
据我理解正确的话,星火有“访问”到分布在属于集群在不同机器上的项目Spark正在运行。这些项目可以想象成文件(或者至少可以从文件中获得)。特别是,通过执行以下操作:
textFile = sc.textFile("test.txt")
我们用“的test.txt”文件,以创建一个新的“项目”,并把它添加到组由星火可见(访问)项目。
我说得没错。如果是这样的话,我怎么能看到Spark的所有“项目”。特别是,我如何看到新创建的项目在那里。
ADDED
给用户的一个目前并不清楚我的意思。所以,我试图澄清。在教程中提到了“分布式项目集合”。所以,有一些“项目”。人们可以看到什么项目存在?或者至少有多少物品存在?我可以在PySpark会话中输入一些内容来获取许多现有的“项目”?
我也有一个术语问题。它是一组称为RDD的项目还是集合中的每个元素(项目)都称为RDD(我指的句子在这方面是不明确的)。通过执行sc.textFile
我们制作了一个新的RDD。那么,我们在物品组中添加了一件物品?我们能否看到集合中的项目(或至少是集合中的项目数量)。
加入2-
它看起来像它仍然不清楚我是什么意思。我不明白什么是不明确的。也许那些对我的问题不清楚的人可以详细说明什么是不明确的。
但无论如何,我尝试了更多。
Spark的主要抽象是名为 的分布式集合,称为弹性分布式数据集(RDD)。
如果有一个项目的集合,应该有办法获得关于这个“项目集合”的一些信息。例如,假设一组物品可以通过集合中物品的数量来表征是很自然的。我可以得到这个号码吗?
我不是你在更新中提到的“同一用户”,但它仍然不清楚。 – eliasah
'wholeTextFiles'返回内容和文件名,如果这是你想要的。 –
RDD只是其他任何对象。它没有特别的意义。 – zero323