Hadoop数据提取

我正在尝试创建一个打击Hadoop并将数据提取到本地Windows计算机的进程。我成功地在ODBC上创建并能够测试连接。进一步研究我发现我需要使用Microsoft Hive odbc，并且我无法在连接上获得成功的测试。我愿意使用不同的工具，但希望通过最好的方式来完成我想要做的事情。我正在查找的数据也存在于ftp服务器上，并且已经加载到Hadoop，我可以从ftp服务器获取它，但宁愿将其从Hadoop中提取出来。我是Hadoop的全新人物，并且我已经研究和阅读，但一直未能找到解决方案。我知道解决方案在那里，我只是没有找到正确的地方，有人可以请我指出正确的方向吗？Hadoop数据提取

来源

2017-09-04 jazmynn

我觉得你很可能不高兴。你的主要问题是什么？要确定什么是重点，我建议你和你的同事谈谈。 – hiropon

命中Hadoop和提取数据到我的本地Windows机器

的第一个建议：Apache的星火

我成功地在ODBC创建，并能测试连接

Hadoop不提供ODBC ...配置单元

进一步研究，我发现我需要使用微软蜂巢ODBC

是在Azure的数据？这就是你会使用微软的驱动程序的唯一原因，据我可以告诉

想的最佳途径一些输入来完成什么，我试图做

这一点是不清楚...你已经提到了SQL工具到目前为止，这是不能通过ODBC访问的......

如果你在Hive中存储数据，JDBC/ODBC可以正常工作，但是如果你决定的话Spark会更快在Hadoop中的YARN群集上运行它。

我可以从FTP服务器得到它，但宁愿从Hadoop的

个人拉，我不建议你从Hadoop的

Hadoop的得到它，（更准确的说， HDFS）不是FTP的替代品
如果您的文件“足够小”以便在FTP中正常存储，则没有理由将它们提取到HDFS，因为HDFS经过优化以处理相当大的文件。
您是hadoop的全新用户，并且您建议您可以轻松地拉取FTP文件。

第二个建议：如果你是死心塌地对Hadoop的生态系统中使用的工具，但没有明确HDFS，尝试Apache Nifi项目，它提供了一个GetFTP processor。

来源

2017-09-05 01:54:26

Hadoop数据提取

回答

相关问题