如何在 Java 中使用 lambda flatMap() 和 Spark 2.1



我正在将Python应用程序移植到Java,并且坚持使用正确的方法来实现Lambda flatMap()。我正在解析 IP 日志,需要在"(空格(上拆分。

我的环境:

  • 火花 vrs 2.1
  • 智能
  • 爪哇 8
  • JDK 1.92

我拥有的是:

加载数据帧:

Dataset<Row> MyLog = spark.sql("Select RecordNumber, IpAddress from Table);
MyLog.createOrReplaceTempView("MyLog");

现在尝试 lambda 平面映射((

Dataset<String> Mylog2 = Mylog.flatMap(e -> String.asList(e.split(' ')));

我已经尝试了几种差异,包括:

Dataset<Row> Mylog2 = Mylog.flatMap(e -> Array.asList(e.split(' ')));
Dataset<String> Mylog2 = Mylog.flatMap(lambda(e -> String.asList(e.split(' '))));

等。

最初的python看起来像这样:

Mylog2 = Mylog.rdd.flatMap(lambda(x,y): ((x,v) for v in y.split(' ')))

我将不胜感激任何关于使用 Spark 在 Java 中实现它的正确方法的见解

谢谢

呢:

Dataset<String> Mylog2 = Mylog.flatMap(row -> java.util.Arrays.stream(row.getString(1).split(' ')).iterator(), Encoders.STRING());

但是您要拆分哪一列?在IP地址上?

最新更新