我刚开始接触学习Hadoop的,我想知道以下几点:假设我有一堆的,我想分析大量生产的MySQL表。从MySQL提取数据到Hadoop的
- 好像我有倾倒的所有表转换成文本文件,以使它们Hadoop的文件系统 - 这是正确的,或者是有一些蜂巢或猪或任何可以访问数据的方式从MySQL直接?
- 如果我将所有生产表转储为文本文件,是否需要担心在转储过程中影响生产性能? (是否取决于表使用的是什么存储引擎?我该怎么办,如果这样的吗?)
- 是更好地每个表转储到一个文件,或每个表拆分为64MB(或任何我的块大小)文件?
+1供SQOOP参考 – 2010-07-21 00:14:28