如何通过java代码在hadoop集群环境中提取.gz文件,而无需将文件复制到本地(通过代码直接在hadoop中提取)?如何在hadoop集群环境中提取.gz文件?
0
A
回答
0
“gunzip -k file.gz”通常用于解压.gz文件,同时保留原始.gz,它是你在找什么?
+0
不....我想在java中的代码提取....需要通过代码....不通过终端... –
0
考虑你的。广州文件中有一个文件,你可以这样做:
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path inFile = new Path(argv[0]);
Path outFile = new Path(argv[1]);
FSDataInputStream in = fs.open(inFile);
org.apache.hadoop.io.compress.GzipCodec.GzipInputStream gis = new org.apache.hadoop.io.compress.GzipCodec.GzipInputStream(in);
FSDataOutputStream out = fs.create(outFile);
doCopy(gis, out);
public static void doCopy(FSDataInputStream is, FSDataOutputStream os) throws Exception {
int oneByte;
while ((oneByte = is.read()) != -1) {
os.write(oneByte);
}
os.close();
is.close();
}
0
这样做的其他方式,你可以创建一个shell脚本并运行时,你需要相同的脚本。或者你试着在你的代码中实现终端命令。
如果你想从终端做它,你可以运行此命令
的gzip [-acdfhlLnNrtvV19] [-S后缀] [名称...] gunzip解[-acfhlLnNrtvV] [-S后缀] [名...]
相关问题
- 1. 如何在Hadoop环境中找到集群名称?
- 2. 如何在WebSphre集群环境中部署EAR文件?
- 3. 如何防止hadoop损坏.gz文件
- 4. 放文件的Hadoop环境
- 5. 在Hadoop Virtualbox群集上访问文件
- 6. 什么是在集群环境中
- 7. 在Weblogic群集环境中登录-LINUX
- 8. 在集群环境中使用石英
- 9. 在集群环境中的subclipse
- 10. 在集群环境中配置log4j
- 11. 在集群环境中缓存
- 12. 如何估算Hadoop集群?
- 13. 如何在此环境中形成群集并选择群集标头?
- 14. 从* .gz扩展名中提取文件
- 15. 从损坏的GZ中提取文件
- 16. 如何在Java中动态提取.gz文件?
- 17. 在hadoop集群上安装spark集群
- 18. 为Hadoop集群
- 19. Intellij从hadoop集群访问文件
- 20. 如何在tomcat 6.0集群环境中实现缓存同步?
- 21. 如何在集群环境中管理弹簧缓存
- 22. 如何在Websphere 6.1集群环境中运行计划任务
- 23. 如何从文件中读取环境
- 24. 多集群环境中的JCR锁定
- 25. 集群环境中的资产管理
- 26. 如何使用Hadoop Streaming在本地Hadoop集群中运行MRJob?
- 27. 从Hadoop集群中运行Web抓取
- 28. Hadoop集群与码头群
- 29. 了解与GZ文件的Hadoop行为
- 30. Hbase Hadoop集群.. java.io.IOException:java.lang.NoSuchMethodExceptio
这是输入到MapReduce作业吗? –
@BinaryNerd号 –