Hadoop数据提取

我正在尝试创建一个击中Hadoop并将数据提取到我本地Windows机器的过程。我在ODBC上成功创建了，并能够测试连接。进一步研究我发现我需要使用Microsoft Hive ODBC，并且无法成功地进行连接的测试。我愿意使用不同的工具，但希望以最佳方式输入来完成我的尝试。我正在寻找的数据也存在于FTP服务器上，并已加载到Hadoop，我可以从FTP服务器获得它，但宁愿将其从Hadoop提取。我对Hadoop是全新的，我已经研究和阅读了，但找不到解决方案。我知道解决方案在那里，我只是不在正确的位置，有人可以指向我的方向正确吗？

击中Hadoop并将数据提取到我的本地Windows Machine

第一个建议：apache spark

我在ODBC上成功创建，并能够测试连接

hadoop不提供ODBC ... Hive确实

进一步研究我发现我需要使用Microsoft Hive ODBC

您的数据是Azure吗？据我所知，这是您使用Microsoft驱动程序的唯一原因

希望以最佳方式输入我要做的事情

这还不清楚...您已经提到了到目前为止的SQL工具，这在ODBC上无法访问...

如果您将数据存储在Hive中，则JDBC/ODBC可以正常工作，但是如果您决定在Hadoop内的纱线群中运行它，Spark会更快。

我可以从FTP服务器获得它，但宁愿从Hadoop
将其取出

就个人而言，我不建议您从Hadoop

获得它

hadoop（更准确地说，HDFS）不是FTP
如果您的文件"足够小"以在FTP中稳定存储，则几乎没有理由将其提取到HDFS，因为HDFS经过优化以处理相当大的文件。
您对Hadoop来说是全新的，您建议您可以轻松地提取FTP文件。

第二个建议：如果您在Hadoop生态系统中使用工具，但不是明确的HDFS，请尝试提供GetFTP处理器。

相关内容

最新更新

热门标签：