2016-09-06 81 views
0

我正在寻找相当于hadoop的InputFormat的东西。但是我没有Hadoop的.java类。我的问题是如何在Spark中完成,而不使用Hadoop识别输入的方式。 对不起,如果这是一个愚蠢的问题,但我对Hadoop/Spark极为新颖。 谢谢如何判断文件应该被分割为哪些输入?

+0

用于读取文件Spark依赖于Hadoop输入格式。 – 2016-09-06 21:40:16

+0

那么,编写一个自定义的InputFormat是一个必要的步骤?如果是这样,那么谢谢,至少现在我知道如何继续。任何〜babysteps〜文档,我可以了解更多? – divmermarlav

+1

我相信任何Hadoop指南都可以。 – 2016-09-06 21:55:19

回答

0

我推测,在MR InputFormat的情况下,数据将很小,因为它主要用于定义连贯数据组(要在单个映射或MR中处理)。因此,定义连贯组太大而不适合内存的文件是不太可能的。所以有可能从InputFormat中读取数据并在Spark中将其缓存在内存中。稍后,您可以阅读该文件的内容,创建一个迭代器(它将识别数据部分,称为Hive分区),然后使用此迭代器为数据部分生成动态路径。

相关问题