替代品的替代方法sparksession.read.json(javardd)

我正在使用sparkSessions read((。json方法在将其转换为parquet文件之前读取JSON文件，并且它正常工作，但是.json(Javardd(方法显示为折旧方法。我们可以为此提供其他方法。使用当前Java：Spark版本2.4.3

我已经浏览了Spark库的文档，但没有获得任何替代方法

JavaSparkContext sc1 = JavaSparkContext.fromSparkContext(SparkContext.getOrCreate());
JavaRDD<String> rddData = sc1.parallelize(data);
Dataset<Row> dataDF = spark.read().json(rddData);

这里.JSON方法显示为弃用方法？我们可以为此提供替代方法。

我经历了如何在没有SparkSQL的情况下用fasterxml释放json？

在这里，他们建议也被弃用的sqlcontext方法。

需要了解.json的交替方法Java spark.read((。

似乎您要做的就是将RDD转换为 Dataset<String>(如建议的@RealSkeATDIC(：

Dataset<Row> dataDF_spark24 = spark.read().json(spark.createDataset(rddData.rdd(), Encoders.STRING()));

另外，如果您不通过保持JavaRDD<String> rddData = ...绑扎，则可以进一步简化：

Dataset<String> dfData = spark.createDataset(data, Encoders.STRING());
Dataset<Row> dataDF_spark24 = spark.read().json(dfData);

相关内容

最新更新

热门标签：