如何判断文件应该被分割为哪些输入？

我正在寻找相当于hadoop的InputFormat的东西。但是我没有Hadoop的.java类。我的问题是如何在Spark中完成，而不使用Hadoop识别输入的方式。对不起，如果这是一个愚蠢的问题，但我对Hadoop/Spark极为新颖。谢谢如何判断文件应该被分割为哪些输入？

来源

2016-09-06 divmermarlav

用于读取文件Spark依赖于Hadoop输入格式。 – 2016-09-06 21:40:16

那么，编写一个自定义的InputFormat是一个必要的步骤？如果是这样，那么谢谢，至少现在我知道如何继续。任何〜babysteps〜文档，我可以了解更多？ – divmermarlav

我相信任何Hadoop指南都可以。 – 2016-09-06 21:55:19

我推测，在MR InputFormat的情况下，数据将很小，因为它主要用于定义连贯数据组（要在单个映射或MR中处理）。因此，定义连贯组太大而不适合内存的文件是不太可能的。所以有可能从InputFormat中读取数据并在Spark中将其缓存在内存中。稍后，您可以阅读该文件的内容，创建一个迭代器（它将识别数据部分，称为Hive分区），然后使用此迭代器为数据部分生成动态路径。

来源

2016-09-07 06:24:09 abhiieor

如何判断文件应该被分割为哪些输入？

回答

相关问题