从MySQL提取数据到Hadoop的

我刚开始接触学习Hadoop的，我想知道以下几点：假设我有一堆的，我想分析大量生产的MySQL表。从MySQL提取数据到Hadoop的

好像我有倾倒的所有表转换成文本文件，以使它们Hadoop的文件系统 - 这是正确的，或者是有一些蜂巢或猪或任何可以访问数据的方式从MySQL直接？
如果我将所有生产表转储为文本文件，是否需要担心在转储过程中影响生产性能？（是否取决于表使用的是什么存储引擎？我该怎么办，如果这样的吗？）
是更好地每个表转储到一个文件，或每个表拆分为64MB（或任何我的块大小）文件？

2010-06-19 grautur

从MySQL导入的数据可以很容易地完成。我建议你使用Cloudera的hadoop发行版，它提供了一个名为'sqoop'的程序，它提供了非常简单的界面，用于从mysql直接导入数据（其他数据库也受支持）。 Sqoop可以与mysqldump或普通的mysql查询一起使用（select * ...）。使用此工具，不需要手动将表分区为文件。但对于hadoop来说，拥有一个大文件要好得多。

从MySQL提取数据到Hadoop的

回答

相关问题