为什么spark需要S3连接Redshift仓库?同时,python熊猫可以直接读取红移表



提前为这个愚蠢的问题道歉。我只是从AWS和Pyspark开始。我正在审查pyspark库,我看到pyspark需要一个tempdir在S3能够从红移读取数据。我的问题是为什么pyspark需要这个S3临时目录。其他库,比如Pandas,可以直接读取Redshift表,而不需要使用任何临时目录。谢谢大家。

Luis

Redshift数据源使用Amazon S3有效地将数据传入和传出Redshift,并使用JDBC在Redshift上自动触发适当的COPY和UNLOAD命令。

见https://docs.databricks.com/data/data-sources/aws/amazon-redshift.html

实现风格,以提高Redshift的性能。

最新更新