小贝子编程

2 Spark作业是否可以同时使用单个HDFS/S3存储

我是Spark的初学者。我可以有两个火花作业同时使用一个HDFS/S3存储吗？一个作业会将最新数据写入S3/HDFS，另一个作业则会将其与另一个源的输入数据一起读取以进行分析。

是的，您可以对同一数据源进行写入和读取。只有在写入完成后，数据才会出现。(在两个HDFS/S3中(

为了使用这两个文件系统，您需要包含文件的协议。

例如spark.read.path("s3a://bucket/file")和/或spark.write.path("hdfs:///tmp/data")

但是，您可以通过设置fs.defaultFS直接使用S3来代替HDFS

最新更新