如何在Spark.NET中执行分布式组合(N选择K)



我有一个项目,我有大量C(100,20(个组合,每个组合集都要做一些小工作。

我正在使用Spark.NET和visual studio作为我的技术(请参阅下面的设置(:https://learn.microsoft.com/en-us/dotnet/spark/tutorials/get-started

NET有一个带有SQL类型命令的数据框架。我假设我需要执行SQL类型命令来创建N个choose K组合,并使用用户定义的辅助函数来处理这些组合。

问题是,将Spark.NET与DataFrame一起使用,代码会是什么样子?如果DataFrame不支持N选择K选项,是否有其他选项可以保持组合的生成分布?

我的基本问题是从spark dotnet github区域得到的回答

https://github.com/dotnet/spark/issues/627

通过在两个数据帧上使用交叉连接,我能够创建组合。这可能不是最好的方法,也许其他人会提出更好的解决方案。

对于N,选择使用N集的K交叉连接。

相关内容

  • 没有找到相关文章

最新更新