小贝子编程

火花连接器加载vs稳定加载器性能

我有一个spark作业，现在从HDFS中提取数据并将数据转换为平面文件以加载到Cassandra中。

cassandra表本质上是3列，但最后两列是map集合，所以是一个"复杂"的数据结构。

现在我使用COPY命令并获得大约3k行/秒的加载，但这非常慢，因为我需要加载大约5000万条记录。

我看到我可以将CSV文件转换为sstable，但我没有看到涉及地图集合和/或列表的示例。

我可以使用spark连接器到cassandra加载数据与地图集合和列表，并获得比仅仅COPY命令更好的性能?

是的，Spark Cassandra Connector对于已经在HDFS中的文件可以快得多。使用spark，您将能够分布式地抓取并写入C*。

即使没有Spark，使用基于java的加载器(如https://github.com/brianmhess/cassandra-loader)也会显著提高速度。

相关内容