TensorFlow输入管道用于在CloudMl上部署

我对TensorFlow的新手相对较新，并且我在修改一些示例以使用输入函数的批处理/流处理时遇到了麻烦。更具体地说，修改此脚本以使其适合在Google Cloud ML上进行培训和服务的"最佳"方法是什么？

在

类似于此示例的东西：

在

我可以将其包装并在云中训练，但是我无法弄清楚如何将简单的vocab_processor转换应用于输入张量。我知道如何用大熊猫做到这一点，但是在那里我无法将转换应用于批处理(使用chunk_size参数(。如果我可以在TensorFlow中重复使用Pandas预处理管道，我会很高兴。

我认为您有3个选项

1(您无法在TF中重复使用Pandas预处理管道。但是，您可以从熊猫预处理的输出开始TF。因此，您可以构建词汇并将文本单词转换为整数，并将新的预处理数据集保存到磁盘上。然后在TF中读取整数数据(正在编码您的文本(进行培训。

2(您可以在熊猫的TF外构建词汇。然后在TF内部阅读单词后，您可以制作一个表格将文本映射到整数。但是，如果您要在TF之外构建词汇，那么您不妨同时进行TF之外的转换，这是选项1。

3(使用tensorflow_transform。您可以在文本列上调用TFT.STRING_TO_INT((以自动构建词汇并转换为整数。Tensorflow_transform的输出是tf.example格式的预处理数据。然后培训可以从tf.example文件开始。这再次是选项1，但使用tf.example文件。如果要在原始文本数据上运行预测，此选项允许您制作具有与内置相同文本预处理相同的导出图，因此您不必在预测时间管理预处理步骤。但是，此选项是最复杂的，因为它引入了两个其他想法：tf.example文件和梁管道。

有关tensorflow_transform的示例

和

https://github.com/googlecloudplatform/cloudml-samples/tree/master/reddit_tft

相关内容

最新更新

热门标签：