小贝子编程

用apache spark/on prem hadoop写avro文件到google云存储

本文关键字：文件 avro google 存储 hadoop spark apache on prem apache-spark hadoop google-cloud-platform
更新时间 : 2023-09-23
英文 : Writing avro files with apache spark/on prem hadoop TO google cloud storage

我正在尝试迁移一些spark工作流使用本地hadoop到谷歌云存储。

假设VPC、网络、云互连和防火墙都井然有序，那么如何将avro文件(目前在parquet中)写入外部目的地(如google云存储)呢?在使用oozie &比如Spark-submit ?我需要将谷歌云存储映射为一个位置吗?我们想摆脱在HDFS中存储东西，但是现在所有的工作流目的地都在写入hadoop中。

您可以使用DistCp而不是Spark来处理现有数据，并配置oozie来运行它。

对于新的或现有的Spark作业，您将需要云存储连接器并在Spark的core-site.xml中配置它，然后您应该能够将数据帧写入GCS

val dataframe = spark.read.load("hdfs://some/data") // existing parquet files
dataframe.write
.format("avro")
.save("gs://bucket/path")

Spark Avro数据源

用apache spark/on prem hadoop写avro文件到google云存储

相关内容

最新更新

热门标签：