将Java ResultSet转换为Spark DataFrame

我在Python中使用pandas来操作数据。

我浏览了Spark的DataFrame，并想在我正在用Java开发的程序中使用这个结构。

我有我的数据在SQL Server，我有SQL结果在ResultSet。我想把它转换成DataFrame

我怎么做这个转换?是否有更简单的方法将SQL结果直接转换为数据框架?

编辑:我试图通过SparkSession下面的细节连接SQL Server

   public static SparkSession spark = SparkSession
        .builder()
           .master("local[*]")
        .appName("Java Spark SQL basic example")
        .getOrCreate();
    Map<String, String> options = new HashMap<String, String>();
    options.put("url", "jdbc:jtds:sqlserver://<clipped>");
    spark.read().format("jdbc").options(options).load();
    Dataset<Row> sqlDF = spark.sql("SELECT TOP 1 * FROM HEDE);

现在我得到Exception in thread "main" java.lang.RuntimeException: Option 'dbtable' not specified我如何/在哪里可以指定表?

您可以在options中指定table:

options.put("dbtable", "some_table");

或使用JDBC方法:

spark.read().jdbc("jdbc:jtds:sqlserver://<clipped>", "some_table", properties)

其中properties为java.util.Properties

相关内容

最新更新

热门标签：