如何与 tpc-ds 基准测试并行生成表



如何运行tpc-ds数据生成(dsdgen(,然后在并行分布式模式下对这些数据(dsqgen(运行查询。我在纱线配置上使用 Spark (spark.master yarn (并将数据存储在突发缓冲区存储系统上。

请检查我当前的探索@https://github.com/dhiraa/spark-tpcds。t下有应用程序,可用于并行生成数据。

或者你可以看看我的参考@https://github.com/maropu/spark-tpcds-datagen

在这两种情况下,不要忘记使用选项"--partition-tables"来使用并行生成。

相关内容

  • 没有找到相关文章

最新更新