我正在探索PyFlink,我想知道是否有可能将PyFlink与ML工程师通常使用的所有ML库一起使用:PyTorch、Tensorflow、Scikit-Learn、Xgboost、LightGBM等。
根据这个SO线程,PySpark不能直接在UDF内部使用Scikit-Learn,因为Scikit-Learn算法不是分布式实现的,而Spark是分布式运行的。
考虑到PyFlink与PySpark相似,我想答案可能是";否";。但我很想仔细检查一下,看看我需要做些什么才能让PyFlink能够使用这些ML库定义UDF。
感谢您对PyFlink以及所有这些ML库的调查。IMO,你可以参考flink-ai扩展项目,该项目支持flink上的Tensorflow、flink等上的PyTorch,其存储库url是https://github.com/alibaba/flink-ai-extended.Flink AI Extended是一个将Flink扩展到各种机器学习场景的项目,可以与PyFlink一起使用。您也可以通过扫描自述文件中的二维码加入小组。