我有一个项目,我有大量C(100,20(个组合,每个组合集都要做一些小工作。
我正在使用Spark.NET和visual studio作为我的技术(请参阅下面的设置(:https://learn.microsoft.com/en-us/dotnet/spark/tutorials/get-started
NET有一个带有SQL类型命令的数据框架。我假设我需要执行SQL类型命令来创建N个choose K组合,并使用用户定义的辅助函数来处理这些组合。
问题是,将Spark.NET与DataFrame一起使用,代码会是什么样子?如果DataFrame不支持N选择K选项,是否有其他选项可以保持组合的生成分布?
我的基本问题是从spark dotnet github区域得到的回答
https://github.com/dotnet/spark/issues/627
通过在两个数据帧上使用交叉连接,我能够创建组合。这可能不是最好的方法,也许其他人会提出更好的解决方案。
对于N,选择使用N集的K交叉连接。