Hadoop数据提取



我正在尝试创建一个击中Hadoop并将数据提取到我本地Windows机器的过程。我在ODBC上成功创建了,并能够测试连接。进一步研究我发现我需要使用Microsoft Hive ODBC,并且无法成功地进行连接的测试。我愿意使用不同的工具,但希望以最佳方式输入来完成我的尝试。我正在寻找的数据也存在于FTP服务器上,并已加载到Hadoop,我可以从FTP服务器获得它,但宁愿将其从Hadoop提取。我对Hadoop是全新的,我已经研究和阅读了,但找不到解决方案。我知道解决方案在那里,我只是不在正确的位置,有人可以指向我的方向正确吗?

击中Hadoop并将数据提取到我的本地Windows Machine

第一个建议:apache spark

我在ODBC上成功创建,并能够测试连接

hadoop不提供ODBC ... Hive确实

进一步研究我发现我需要使用Microsoft Hive ODBC

您的数据是Azure吗?据我所知,这是您使用Microsoft驱动程序的唯一原因

希望以最佳方式输入我要做的事情

这还不清楚...您已经提到了到目前为止的SQL工具,这在ODBC上无法访问...

如果您将数据存储在Hive中,则JDBC/ODBC可以正常工作,但是如果您决定在Hadoop内的纱线群中运行它,Spark会更快。

我可以从FTP服务器获得它,但宁愿从Hadoop

将其取出

就个人而言,我不建议您从Hadoop

获得它
  1. hadoop(更准确地说,HDFS)不是FTP
  2. 的替代品
  3. 如果您的文件"足够小"以在FTP中稳定存储,则几乎没有理由将其提取到HDFS,因为HDFS经过优化以处理相当大的文件。
  4. 您对Hadoop来说是全新的,您建议您可以轻松地提取FTP文件。

第二个建议:如果您在Hadoop生态系统中使用工具,但不是明确的HDFS,请尝试提供GetFTP处理器。

最新更新