2017-09-04 210 views
0

我正在尝试创建一个打击Hadoop并将数据提取到本地Windows计算机的进程。我成功地在ODBC上创建并能够测试连接。进一步研究我发现我需要使用Microsoft Hive odbc,并且我无法在连接上获得成功的测试。我愿意使用不同的工具,但希望通过最好的方式来完成我想要做的事情。我正在查找的数据也存在于ftp服务器上,并且已经加载到Hadoop,我可以从ftp服务器获取它,但宁愿将其从Hadoop中提取出来。我是Hadoop的全新人物,并且我已经研究和阅读,但一直未能找到解决方案。我知道解决方案在那里,我只是没有找到正确的地方,有人可以请我指出正确的方向吗?Hadoop数据提取

+0

我觉得你很可能不高兴。你的主要问题是什么?要确定什么是重点,我建议你和你的同事谈谈。 – hiropon

回答

0

命中Hadoop和提取数据到我的本地Windows机器

的第一个建议:Apache的星火

我成功地在ODBC创建,并能测试连接

Hadoop不提供ODBC ...配置单元

进一步研究,我发现我需要使用微软蜂巢ODBC

是在Azure的数据?这就是你会使用微软的驱动程序的唯一原因,据我可以告诉

想的最佳途径一些输入来完成什么,我试图做

这一点是不清楚...你已经提到了SQL工具到目前为止,这是不能通过ODBC访问的......

如果你在Hive中存储数据,JDBC/ODBC可以正常工作,但是如果你决定的话Spark会更快在Hadoop中的YARN群集上运行它。

我可以从FTP服务器得到它,但宁愿从Hadoop的

个人拉,我不建议你从Hadoop的

  1. Hadoop的得到它,(更准确的说, HDFS)不是FTP的替代品
  2. 如果您的文件“足够小”以便在FTP中正常存储,则没有理由将它们提取到HDFS,因为HDFS经过优化以处理相当大的文件。
  3. 您是hadoop的全新用户,并且您建议您可以轻松地拉取FTP文件。

第二个建议:如果你是死心塌地对Hadoop的生态系统中使用的工具,但没有明确HDFS,尝试Apache Nifi项目,它提供了一个GetFTP processor