IBM SQL Query 如何知道我在 CSV 文件中使用的模式？

我有兴趣使用IBM SQL查询服务来询问我在对象存储中的某些文件的问题，但是它如何知道我在这些文件中使用的架构。它如何知道它应该用于我的CSV文件中的列的数据类型？我看不到任何"创建表"机制可以允许我定义字段名称和数据类型。

ibm sql查询依赖于read时的架构。它对由SQLS查询引用的每个数据集执行模式推断。IBM SQL查询使用Apache Spark作为执行引擎，该引擎也用于进行模式推断。

如果有CSV数据(以及查询JSON数据(，则该模式推理涉及扫描数据值以获取每列的数据类型。当您的数据量变大，并且您想优化SQL的性能时，最好以更精细的格式存储数据，例如Parquet，该格式将元数据与数据值结合在一起。在这种情况下，架构推理非常有效且快速，因为IBM SQL查询只需要读取Parquet页脚来检索数据的模式。

当您想查询对象存储中对象的多个分区中分布的大数据集时，这种效果变得更加明显。在这种情况下，IBM SQL查询确实确实只需要检索一个镶木木对象(即一个分区(，然后读取它的页脚，以推断整个数据集的模式。

。

相关内容

最新更新

热门标签：