从sparkjava API中的映射创建数据帧



我正在尝试在java API中使用spark-sql,下面是一些简单的东西(从官方指南复制:https://spark.apache.org/docs/latest/rdd-programming-guide.html)不会让intelij高兴。

它抱怨ClassTag的事情,我不知道如何创建它或让它自动导入或其他什么。

List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
JavaRDD<Integer> distData = sc.parallelize(data);

我知道它想使用3个参数

public <T> RDD<T> parallelize(final Seq<T> seq, final int numSlices, final ClassTag<T> evidence$1) {

但是我怎么能得到这个evidence$1的东西呢?官方的例子也没有争论

请帮忙。

我决定查看官方指南附带的示例的源代码。结果发现它需要创建javaspark上下文在我使用了指南源代码中的示例后,我的一个开始工作。

import scala.Tuple2;
import org.apache.spark.api.java.JavaSparkContext;
List<Tuple2<String, String>> data =
Arrays.asList(
new Tuple2<>("key1","value1")
, new Tuple2<>("key2", "value2")
);
JavaPairRDD<String, String> dataRdd = jsc.parallelizePairs(data);

最新更新