火花+镶木地板"database"的设计

我每天都有100G的文本文件，我希望创建一个可以从Spark访问的高效"数据库"。我所说的"数据库"是指对数据执行快速查询（大约一年前）的能力，并且每天增量添加数据，最好没有读锁定。

假设我想使用Spark SQL和parquet，实现此目的的最佳方法是什么？

随意建议其他选项，但让我们假设我现在正在使用镶木地板，因为从我所读到的内容来看，这将对许多其他人有所帮助。

我的 0 级设计

我的系统中有非常相似的要求。我会说如果加载全年的数据 - 对于 100g 一天，这将是 36T 数据，如果你每天需要加载 36TB，那无论如何都不可能很快。最好将处理的每日数据保存在某个地方（例如计数，总和，不同的结果），并使用它来返回全年。

相关内容