IBM SQL Query 如何知道我在 CSV 文件中使用的模式?



我有兴趣使用IBM SQL查询服务来询问我在对象存储中的某些文件的问题,但是它如何知道我在这些文件中使用的架构。它如何知道它应该用于我的CSV文件中的列的数据类型?我看不到任何"创建表"机制可以允许我定义字段名称和数据类型。

ibm sql查询依赖于read时的架构。它对由SQLS查询引用的每个数据集执行模式推断。IBM SQL查询使用Apache Spark作为执行引擎,该引擎也用于进行模式推断。

如果有CSV数据(以及查询JSON数据(,则该模式推理涉及扫描数据值以获取每列的数据类型。当您的数据量变大,并且您想优化SQL的性能时,最好以更精细的格式存储数据,例如Parquet,该格式将元数据与数据值结合在一起。在这种情况下,架构推理非常有效且快速,因为IBM SQL查询只需要读取Parquet页脚来检索数据的模式。

当您想查询对象存储中对象的多个分区中分布的大数据集时,这种效果变得更加明显。在这种情况下,IBM SQL查询确实确实只需要检索一个镶木木对象(即一个分区(,然后读取它的页脚,以推断整个数据集的模式。

相关内容

  • 没有找到相关文章

最新更新