小贝子编程

为什么spark需要S3连接Redshift仓库?同时，python熊猫可以直接读取红移表

本文关键字：熊猫 python 读取同时需要 spark S3 连接仓库 Redshift amazon-web-services amazon-s3 pyspark amazon-redshift
更新时间 : 2023-09-22
英文 : why does spark need S3 to connect Redshift warehouse? Meanwhile python pandas can read Redshift table directly

提前为这个愚蠢的问题道歉。我只是从AWS和Pyspark开始。我正在审查pyspark库，我看到pyspark需要一个tempdir在S3能够从红移读取数据。我的问题是为什么pyspark需要这个S3临时目录。其他库，比如Pandas，可以直接读取Redshift表，而不需要使用任何临时目录。谢谢大家。

Luis

Redshift数据源使用Amazon S3有效地将数据传入和传出Redshift，并使用JDBC在Redshift上自动触发适当的COPY和UNLOAD命令。

见https://docs.databricks.com/data/data-sources/aws/amazon-redshift.html

实现风格，以提高Redshift的性能。

为什么spark需要S3连接Redshift仓库?同时，python熊猫可以直接读取红移表

相关内容

最新更新

热门标签：