以 Parquet 格式保存 PostgreSQL 数据



我正在做一个需要从一个巨大的PostgreSQL数据库生成镶木地板文件的项目。数据大小可能很大(例如:10TB(。我对这个主题很陌生,在网上做了一些研究,但没有找到将数据转换为 Parquet 文件的直接方法。以下是我的问题:

  1. 我看到的唯一可行的解决方案是通过JDBC将Postgres表加载到Apache Spark并另存为镶木地板文件。但我认为在传输 10TB 数据时它会非常慢。
  2. 是否可以生成 10 TB 的巨大镶木地板文件大小?还是创建多个镶木地板文件更好?

希望我的问题很清楚,我非常感谢任何有用的反馈。提前感谢!

使用此卷使用 ORC 格式而不是镶木地板格式。 我假设数据是分区的,所以我认为利用数据分区并行提取是个好主意。

最新更新