小文件我想小文件的HDFS相结合。这仅仅是出于历史目的,如果需要的话,大文件将被反汇编,并在整个过程中运行,为hadoop表创建数据。有没有办法简单地实现这一点?例如,有一天收到100个个小文件,合并成一个文件,然后每天两次加/多个文件追加到以前创建的文件,等...Hadoop中
Hadoop中
回答
如果这些文件都是一样的“模式”,让我们说如CSV或JSON。然后,欢迎您来写一个非常基本的猪/星火职业阅读的小文件整个文件夹,然后写回了别的地方,将所有的文件极有可能合并成基础上,HDFS块大小更大的尺寸。
你也提到了Hive,因此对于小文件使用外部表,并使用CTAS查询来创建单独的表,从而创建一个MapReduce作业,这与Pig的做法基本相同。
IMO,如果可能的话,则最优解是设置一个系统的Hadoop“上游”,这将批生产较小的文件成较大的文件,然后倾倒出来到HDFS。 Apache NiFi是一个用于此目的的有用工具。
我瞪大眼睛有两种猪和火花,结果一直低于启发,(例如,我发现文章,说明猪使用Hadoop和现在存在的附加文件中没有“推荐”的解决方案。)。你会知道一个有助于这个项目的教程吗? –
HDFS没有对文件追加的一流支持。您读取多个文件,然后将它们压缩/合并到其他文件中。 –
关于猪,可以使用'STORE'和'LOAD'命令。但是,如果你有Java/Python背景,Spark更“编程友好”。如前所述,如果您从选择对象中创建TABLE,您也可以使用不同的格式,如ORC或Parquet –
- 1. Hadoop中
- 2. Hadoop中
- 3. Hadoop中
- 4. Hadoop中
- 5. Hadoop中的MapReduce
- 6. Hadoop中的SetWritable?
- 7. mapreduce中的reducers hadoop
- 8. Hadoop中的容错
- 9. Hadoop 2.7.3中的HTrace
- 10. 如何在Hadoop中
- 11. 序列中的Hadoop
- 12. 无法在Hadoop中
- 13. 无法在Hadoop中
- 14. 如何在Hadoop中
- 15. 在Hadoop中shell $ ExitCodeException
- 16. Hadoop/Hbase:java.lang.NoClassDefFoundError:org/apache/hadoop/hbase/HBaseConfiguration
- 17. JoGL in Hadoop? Hadoop的图形?
- 18. 要hadoop或不要hadoop
- 19. 在ubuntu 14.04 hadoop 2.6中运行hadoop程序单节点集群设置hadoop 2.6
- 20. hadoop fs -text vs hadoop fs -cat vs hadoop fs -get
- 21. Hadoop - LeaseExpiredException
- 22. hadoop mapreduce
- 23. Hadoop outputCollector
- 24. Hadoop的
- 25. hadoop NullPointerException
- 26. Hadoop DistributedCache
- 27. Hadoop NameNode
- 28. /home/hadoop/bin/hadoop在ami 4.x中缺失
- 29. 如何使用Hadoop Streaming在本地Hadoop集群中运行MRJob?
- 30. Hadoop包中的hadoop-ec2:如何指定区域?
“为Hadoop表” ......你的意思是蜂巢? HBase的? Hadoop没有“表”的概念 –
是的,我的意思是配置单元。 –