Billion行插入到CloudSql的吞吐量改进



我有一个表,每天大约有6亿到10亿行。即30m-40m记录/小时

向CloudSql插入1小时的数据平均需要35分钟。我可以做些什么来改进性能、配置、数据库设计和/或我们可能错过的任何其他方面?

数据从项目1插入到项目2,从GCS读取拼花地板文件,使用DataProc集群以CloudSql可接受的格式将其转换,然后插入到CloudSql中,因为mysql(又名CloudSql(自然会对大容量插入施加限制。我使用的是一个20主节点集群。我的目标MySql实例是一个52 GB、8 vCPU的CloudSql实例,具有600 GB SSD存储,innodb_write_io_threads设置为12。数据库版本为MySQL 5.7。

我如何可能提高吞吐量,即1小时的数据(3500万条记录(大约需要35-40分钟?CPU使用率为90%,内存使用率为80%

我不认为CloudSQL和MySQL是为这个用例设计的,对于GCP上的完全管理的大数据分析,你应该使用完全管理的云数据仓库-BigQuery。

Datproc Spark可以通过Spark BigQuery连接器轻松地与BigQuery集成。

相关内容

  • 没有找到相关文章

最新更新