替代品的替代方法sparksession.read.json(javardd)



我正在使用sparkSessions read((。json方法在将其转换为parquet文件之前读取JSON文件,并且它正常工作,但是.json(Javardd(方法显示为折旧方法。我们可以为此提供其他方法。使用当前Java:Spark版本2.4.3

我已经浏览了Spark库的文档,但没有获得任何替代方法

JavaSparkContext sc1 = JavaSparkContext.fromSparkContext(SparkContext.getOrCreate());
JavaRDD<String> rddData = sc1.parallelize(data);
Dataset<Row> dataDF = spark.read().json(rddData);

这里.JSON方法显示为弃用方法?我们可以为此提供替代方法。

我经历了如何在没有SparkSQL的情况下用fasterxml释放json?

在这里,他们建议也被弃用的sqlcontext方法。

需要了解.json的交替方法Java spark.read((。

似乎您要做的就是将RDD转换为 Dataset<String>(如建议的@RealSkeATDIC(:

Dataset<Row> dataDF_spark24 = spark.read().json(spark.createDataset(rddData.rdd(), Encoders.STRING()));

另外,如果您不通过保持JavaRDD<String> rddData = ...绑扎,则可以进一步简化:

Dataset<String> dfData = spark.createDataset(data, Encoders.STRING());
Dataset<Row> dataDF_spark24 = spark.read().json(dfData);

最新更新