我是Spark的初学者。我可以有两个火花作业同时使用一个HDFS/S3存储吗?一个作业会将最新数据写入S3/HDFS,另一个作业则会将其与另一个源的输入数据一起读取以进行分析。
是的,您可以对同一数据源进行写入和读取。只有在写入完成后,数据才会出现。(在两个HDFS/S3中(
为了使用这两个文件系统,您需要包含文件的协议。
例如spark.read.path("s3a://bucket/file")
和/或spark.write.path("hdfs:///tmp/data")
但是,您可以通过设置fs.defaultFS
直接使用S3来代替HDFS