从Hadoop(内部部署)加载数据到Azure数据湖的不同方法



我需要每8小时从Hadoop(这是内部部署的Hortonworks集群)加载数据到Azure数据湖。你能告诉我——在实现这个解决方案时,可以尝试哪些不同的方法吗?

  1. ADF[我们可以创建一个管道活动并调度它们]还有别的吗?

谢谢,Aravind

我们在这个链接中提供了高级选项。搜索:"数据存储在本地或IaaS Hadoop集群".

但是,需要根据以下内容进行微调:1. 你想要移动多少数据,文件数量,文件大小等。较小的文件需要更长的时间来传输。2. 从onprem到Azure的网络连接如果你有ExpressRoute可用,你会有更好的体验。如果你只有公共互联网连接,你的瓶颈将是网络,而不是你使用的工具。

谢谢,萨钦ShethAzure数据湖项目经理

最新更新