TensorFlow输入管道用于在CloudMl上部署



我对TensorFlow的新手相对较新,并且我在修改一些示例以使用输入函数的批处理/流处理时遇到了麻烦。更具体地说,修改此脚本以使其适合在Google Cloud ML上进行培训和服务的"最佳"方法是什么?

类似于此示例的东西:

我可以将其包装并在云中训练,但是我无法弄清楚如何将简单的vocab_processor转换应用于输入张量。我知道如何用大熊猫做到这一点,但是在那里我无法将转换应用于批处理(使用chunk_size参数(。如果我可以在TensorFlow中重复使用Pandas预处理管道,我会很高兴。

我认为您有3个选项

1(您无法在TF中重复使用Pandas预处理管道。但是,您可以从熊猫预处理的输出开始TF。因此,您可以构建词汇并将文本单词转换为整数,并将新的预处理数据集保存到磁盘上。然后在TF中读取整数数据(正在编码您的文本(进行培训。

2(您可以在熊猫的TF外构建词汇。然后在TF内部阅读单词后,您可以制作一个表格将文本映射到整数。但是,如果您要在TF之外构建词汇,那么您不妨同时进行TF之外的转换,这是选项1。

3(使用tensorflow_transform。您可以在文本列上调用TFT.STRING_TO_INT((以自动构建词汇并转换为整数。Tensorflow_transform的输出是tf.example格式的预处理数据。然后培训可以从tf.example文件开始。这再次是选项1,但使用tf.example文件。如果要在原始文本数据上运行预测,此选项允许您制作具有与内置相同文本预处理相同的导出图,因此您不必在预测时间管理预处理步骤。但是,此选项是最复杂的,因为它引入了两个其他想法:tf.example文件和梁管道。

有关tensorflow_transform的示例

https://github.com/googlecloudplatform/cloudml-samples/tree/master/reddit_tft

最新更新