如何在AWS S3中生成1 TB的TPC-DS基准数据



我想直接在AWS S3中生成TPC-DS数据(1 TB和10 TB(,而无需从本地机器传输到S3。最简单的方法是什么?

我几个月前也做过类似的工作,hive测试台是一个选项。查看README.md,了解如何实现。

您需要将$HADOOP_HOME/etc/hadoop/core-site.xml中的fs.defaultFS配置到您的AWS S3 bucket中,数据将直接在AWS中生成
将数据比例参数传递给./tpcds-setup.sh,生成不同比例的日期。

最新更新