我正在使用sparkSessions read((。json方法在将其转换为parquet文件之前读取JSON文件,并且它正常工作,但是.json(Javardd(方法显示为折旧方法。我们可以为此提供其他方法。使用当前Java:Spark版本2.4.3
我已经浏览了Spark库的文档,但没有获得任何替代方法
JavaSparkContext sc1 = JavaSparkContext.fromSparkContext(SparkContext.getOrCreate());
JavaRDD<String> rddData = sc1.parallelize(data);
Dataset<Row> dataDF = spark.read().json(rddData);
这里.JSON方法显示为弃用方法?我们可以为此提供替代方法。
我经历了如何在没有SparkSQL的情况下用fasterxml释放json?
在这里,他们建议也被弃用的sqlcontext方法。
需要了解.json的交替方法Java spark.read((。
似乎您要做的就是将RDD转换为 Dataset<String>
(如建议的@RealSkeATDIC(:
Dataset<Row> dataDF_spark24 = spark.read().json(spark.createDataset(rddData.rdd(), Encoders.STRING()));
另外,如果您不通过保持JavaRDD<String> rddData = ...
绑扎,则可以进一步简化:
Dataset<String> dfData = spark.createDataset(data, Encoders.STRING());
Dataset<Row> dataDF_spark24 = spark.read().json(dfData);