2015-07-21 52 views
1

Apache Avro在文件处理中的用途是什么?任何人都可以向我解释,如果我需要以.LZO格式处理数据结核病,这有用吗?Apache Avro在文件处理中

我有一个C++和Java之间的选择,什么会更适合Avro更完美?

我的真正目的是读取压缩文件,并根据一些标准将它们分类到新的不同文件。

预先感谢您.... :)

// Serialize user1, user2 and user3 to disk 
    DatumWriter<User> userDatumWriter = new SpecificDatumWriter<User> (User.class); 
    DataFileWriter<User> dataFileWriter = new DataFileWriter<User>(userDatumWriter); 
dataFileWriter.create(user1.getSchema(), new File("users.avro")); 
dataFileWriter.append(user1); 
dataFileWriter.append(user2); 
dataFileWriter.append(user3); 
dataFileWriter.close(); 

回答

0

在地图,减少广告数据分析,它可以帮助你避免瓶颈。在一个典型的ETL流程中,如果数据被快速传输,数据会被压缩,有时候所有的数据都依赖于从A点到B点的大块数据。

此外,文件结构针对hadoop进行了优化,其类似于'hadoop序列文件'。 LZO缺乏具体的优化结构Hadoop的但正在取得进展

http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

帕特文件是语言无关,无论LZO和ARVO有一个C接口,从该职位,他们正在研究一些猪UDF的,所以我会希望在不久的将来某个时候能看到一些Pig LZO桥。

帕特文件是基于架构, http://avro.apache.org/docs/current/spec.html#schemas

这是非常有用的,你可以根据它的模式

文档是开始http://avro.apache.org/docs/current/的好地方,在运行时发现的文件格式/结构