使用Java比较Spark中的两个数据范围



我有一个名为'sample_event'的表,看起来像

+-----+-------------------------+-------------------+---------------+
| id  | log_timestamp           | action_performed  | activity_date |
+-----+-------------------------+-------------------+---------------+
| 1   |  2017-06-01 23:40:07.0  | Clicked           | 2017-06-01    |
+-----+-------------------------+-------------------+---------------+

使用数据类型的该表的架构: -

 root
  |-- id: integer (nullable = true)
  |-- log_timestamp: timestamp (nullable = true)
  |-- action_performed: string (nullable = true)
  |-- activity_date: date (nullable = true)

我获得了我的数据框架,例如

Dataset<Row> df = sparkContext.sql("SELECT * FROM sample_event WHERE id=1")

我想通过从表中创建具有相同值的新数据框来测试数据框架的值和类型。如何使用上述模式在Java中创建数据框?

创建表,例如

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name1 LIKE [db_name.]table_name2 [LOCATION path]

使用现有表或视图的定义/元数据创建一个托管表。创建的表总是在默认仓库位置使用自己的目录。

相关内容

  • 没有找到相关文章

最新更新