将数据从AWS Redshift导入BI Tool的最快方法



我有一个运行ra3的AWS红移表。Xlplus有2个节点,有1500万行。我正在办公室内部检索数据。我试图将该数据加载到内存中的BI工具。使用JDBC连接导入该数据需要花费很多时间(12分钟)。也尝试在ODBC连接上得到相同的结果。我试着在AWS上启动一个具有25gb连接的EC2,但得到了相同的结果。

作为比较,加载CSV格式的数据大约需要90秒。

有没有加速数据传输的方法?

有很多方法可以改善这一点,但需要确定真正的限制因素。可能的瓶颈是AWS和本地系统之间的网络带宽。当你从云端获取大量数据时,你需要一个高效的传输过程。

JDBC和ODBC并不像您看到的那样具有网络效率。首先要帮助移动数据的是压缩。第二种是并行传输,因为TCP协议中有相当数量的握手,并且有比一个连接可以消耗的更多的可用带宽。因此,我过去的做法是将压缩到S3的数据卸载,然后将文件从S3并行复制到本地机器,通过管道将文件解压缩并保存。最后,这些文件被加载到BI工具中。

显然,设置这个需要一些时间,所以您希望确保该过程将被充分使用,以证明这种努力是合理的。另一种方法是通过将BI工具定位在ec2实例中,使其更接近Redshift。较短的网络距离和较高的带宽将显著缩短传输时间。将数据库定位在云中的一个缺点是,它是在云中,而不是在本地。

相关内容