如何运行tpc-ds数据生成(dsdgen
(,然后在并行分布式模式下对这些数据(dsqgen
(运行查询。我在纱线配置上使用 Spark (spark.master yarn
(并将数据存储在突发缓冲区存储系统上。
请检查我当前的探索@https://github.com/dhiraa/spark-tpcds。t下有应用程序,可用于并行生成数据。
或者你可以看看我的参考@https://github.com/maropu/spark-tpcds-datagen
在这两种情况下,不要忘记使用选项"--partition-tables"来使用并行生成。