SnappyData多个工作以实现并行性



我正在使用SnappyData和SQL进行一些分析,但是该作业很慢,并且涉及在非常大的输入数据上加入操作。

我首先考虑分区输入数据,然后同时运行不同分区上的作业以加快过程。但在我使用的嵌入式模式下,我的代码可以通过snappysession进入,我可以使用bin/snappy-sql查询表,所以我假设所有SnappyData作业都会共享相同的SnappySession(或相同的表格命名空间,例如相同的表格,我的理解中的PostgreSQL数据库)。

因此,我假设如果使用具有不同输入参数的同一JAR提交工作,则表名称空间对于不同的作业将相同,从而导致错误。

所以我的问题是:是否可以独立运行一系列操作,最好在一个SnappyData的工作中运行一系列操作,以避免同时管理许多工作?

我不确定我遵循问题。也许这会有所帮助:

使用Snappy-SQL提交查询时,此Shell使用JDBC连接并运行查询。内部活泼的人将根据查询的不同,将在每个分区上开始工作并在每个分区上执行并发任务。而且,是的,此SQL会话在内部与唯一的SnappySession(Spark Session)相关联。

或者,也许您正在尝试将数据分配在许多表中,并开始独立地在这些表上进行处理,但并行?

最新更新