适用于Apache Spark的perl API



我是一名长期的perl开发人员,有人告诉我"去学习Apache Spark"。所以我的计划是,1(弄清楚什么是Apache spark,2(弄清楚如何与perl进行对话。我们正处于这个过程的早期。。。

我看到很多网页https://www.kdnuggets.com/2018/05/apache-spark-python-scala.html上面写着"虽然Spark有Scala、Python、Java的API和R,但常用的语言是前两种。">

我还没有找到任何关于Spark的perl API的信息——搜索CPAN名字中有"Spark",但实际上没有任何相关内容。这令人困惑。。。Spark最流行的API之一是面向Python,但对于perl来说什么都没有?

我很难接受"你只能通过Python与Spark对话,不是perl",但这就是我目前所处的位置。所以我的问题是,perl如何社区与Apache Spark的接口,以及此功能与Python功能,就功能完整性而言?

在CPAN或其他方面似乎确实没有Perl API。我观察到其他人正在从Scala调用Perl脚本:https://wiki.ufal.ms.mff.cuni.cz/spark:recipes:using-perl通过管道

文档位于https://spark.apache.org/docs/latest/rdd-programming-guide.html关于管道:

通过shell命令(例如Perl或bash脚本(对RDD的每个分区进行管道传输。RDD元素被写入进程的stdin,输出到其stdout的行作为字符串的RDD返回。

需要注意的是,python是通过java网关提供支持的。

类似的操作可以在Perl中使用Java等发行版来完成。

最新更新