用弗林克跑步者在光束上转换张量

这似乎很愚蠢，但这是我在这里的第一篇文章。很抱歉做错了什么。

我目前正在使用Python2.7构建使用TFX 0.11（即TFDV-TFT-TFServing）和Tensorflow 1.11的简单ML管道。我目前有一个Apache-Flink群集，我想将其用于TFX。我知道TFX背后的框架是Apache-Beams 2.8，并且（Apache-Beams）当前通过便携式跑步者层以Python SDK为FLINK。

但是问题是我可以通过此便携式跑步者概念在TFX（TFDV-TFT）中使用flink Runner的Apache Beams在TFX（TFDV-TFT）中进行编码，因为TFX当前似乎仅支持DirectRunner和DataFlowRunner（Google Cloud）。

我已经在网络上搜索了一段时间，并在TFX网站中查看最后一行，

"请指导有关使用TF.Transform合作的任何问题，以使用TensorFlow-Transform标签堆叠溢出。"

这就是为什么我在这里。任何想法或解决方法都非常感谢。谢谢！

感谢您的问题。

免责声明：便携式弗林克跑步者仍处于实验阶段，只能与大量的输入数据一起使用。

这是您可以通过横梁在Flink上运行TFX的方式。

先决条件

Linux
docker
Beam Repo：https：//github.com/apache/beam
用于输入和输出的分布式文件系统。

运行Python管道的说明：https：//beam.apache.org/roadmap/portability/#python-on-flink
注意：我们目前仅支持Flink 1.5.5

说明

1）构建工人容器：

转到Beam Checkout Dir
运行gradle命令：./gradlew：beam-sdks-python-container：docker

2）flink运行横梁求职者：

转到Beam Checkout Dir
运行gradle命令：./gradlew beam-runners-flink_2.11-job-server：runshadow注意：此命令将在启动工作服务器并保持运行时无法完成。

3）提交管道

请参阅https://github.com/angoenka/model-analysis/blob/hack_1/examples/chicago_taxi/preprocess_flink.sh
注意：确保将以下标志传递到管道

--experiments=beam_fn_api --runner PortableRunner --job_endpoint=localhost:8099 --experiments=worker_threads=100 --execution_mode_for_batch=BATCH_FORCED

相关内容

最新更新

热门标签：