SnappyData多个工作以实现并行性

我正在使用SnappyData和SQL进行一些分析，但是该作业很慢，并且涉及在非常大的输入数据上加入操作。

我首先考虑分区输入数据，然后同时运行不同分区上的作业以加快过程。但在我使用的嵌入式模式下，我的代码可以通过snappysession进入，我可以使用bin/snappy-sql查询表，所以我假设所有SnappyData作业都会共享相同的SnappySession（或相同的表格命名空间，例如相同的表格，我的理解中的PostgreSQL数据库）。

因此，我假设如果使用具有不同输入参数的同一JAR提交工作，则表名称空间对于不同的作业将相同，从而导致错误。

所以我的问题是：是否可以独立运行一系列操作，最好在一个SnappyData的工作中运行一系列操作，以避免同时管理许多工作？

我不确定我遵循问题。也许这会有所帮助：

使用Snappy-SQL提交查询时，此Shell使用JDBC连接并运行查询。内部活泼的人将根据查询的不同，将在每个分区上开始工作并在每个分区上执行并发任务。而且，是的，此SQL会话在内部与唯一的SnappySession（Spark Session）相关联。

或者，也许您正在尝试将数据分配在许多表中，并开始独立地在这些表上进行处理，但并行？

相关内容

最新更新

热门标签：