Spark Java中的访问广播变量



我需要使用Java RDD API处理Spark广播变量。这是我到目前为止尝试过的代码:

这只是检查其是否有效的示例代码?就我而言,我需要处理两个csv文件。

          SparkConf conf = new SparkConf().setAppName("BroadcastVariable").setMaster("local");
          JavaSparkContext ctx = new JavaSparkContext(conf);
          Map<Integer,String> map = new HashMap<Integer,String>();
          map.put(1, "aa");
          map.put(2, "bb");
          map.put(9, "ccc");
          Broadcast<Map<Integer, String>> broadcastVar = ctx.broadcast(map);
          List<Integer> list = new ArrayList<Integer>();
          list.add(1);
          list.add(2);
          list.add(9);
          JavaRDD<Integer> listrdd = ctx.parallelize(list);
          JavaRDD<Object> mapr = listrdd.map(x -> broadcastVar.value());
          System.out.println(mapr.collect());

它像这样打印输出:

[{1=aa, 2=bb, 9=ccc}, {1=aa, 2=bb, 9=ccc}, {1=aa, 2=bb, 9=ccc}]

我的要求是:

 [{aa, bb, ccc}]

有可能以我的必要方式喜欢吗?

我使用了 JavaRDD<Object> mapr = listrdd.map(x -> broadcastVar.value().get(x)); JavaRDD<Object> mapr = listrdd.map(x -> broadcastVar.value());

现在工作。

相关内容

  • 没有找到相关文章

最新更新