2012-08-01 71 views
0

我正在使用Amazon EMR Hadoop Hive进行大数据处理。我的日志文件中的当前数据为CSV格式。为了从日志文件中创建表,我编写了正则表达式来解析数据并存储到外部表的不同列中。我知道SerDe可以用来读取JSON格式的数据,这意味着每个日志文件行都可以作为JSON对象。如果我的日志文件采用JSON格式比较CSV格式,是否有任何Hadoop性能优势?Amazon EMR JSON

回答

0

如果您可以处理表格的输出(您使用正则表达式创建的),为什么还要进行其他处理?尽量避免不必要的东西。

我认为这里的主要问题是哪种格式更快阅读。我相信CSV会比JSON提供更好的速度,但不要听我的话。 Hadoop真的不在乎。一旦在内存中,它都是字节数组。

+0

你在做什么样的处理EMR?也许像http://axemblr.com/tool这样的东西可能会让你感兴趣。 – ieugen 2012-08-02 10:23:01