使用 python 函数和 tf 进行数据增强.数据集接口

我正在寻找动态读取的图像并为我的图像分割问题应用数据增强。从我目前所看到的情况来看，最好的方法是使用.map函数的tf.DatasetAPI。

但是，从我看到的例子来看，我认为我必须使我的所有函数适应 tensorflow 风格(使用tf.cond而不是if等(。问题是我需要应用一些非常复杂的功能。因此，我正在考虑使用这样的tf.py_func：

import tensorflow as tf
img_path_list = [...]   # List of paths to read
mask_path_list = [...]  # List of paths to read
dataset = tf.data.Dataset.from_tensor_slices((img_path_list, mask_path_list))
def parse_function(img_path_list, mask_path_list):
'''load image and mask from paths'''
return img, mask
def data_augmentation(img, mask):
'''process data with complex logic'''
return aug_img, aug_mask
# py_func wrappers
def parse_function_wrapper(img_path_list, mask_path_list):
return tf.py_func(func=parse_function,
inp=(img_path_list, mask_path_list),
Tout=(tf.float32, tf.float32))
def data_augmentation_wrapper(img, mask):
return tf.py_func(func=data_augmentation,
inp=(img, mask),
Tout=(tf.float32, tf.float32))        
# Maps py_funcs to dataset
dataset = dataset.map(parse_function_wrapper,
num_parallel_calls=4)
dataset = dataset.map(data_augmentation_wrapper,
num_parallel_calls=4)
dataset = dataset.batch(32)
iter = dataset.make_one_shot_iterator()
imgs, labels = iter.get_next()

但是，从这个答案来看，使用py_func进行并行似乎不起作用。还有其他选择吗？

py_func受到python GIL的限制，所以你不会得到太多的并行性。最好的办法是在张量流中编写数据增强(或预先计算它并将其序列化到磁盘(。

如果你确实想用tensorflow编写它，你可以尝试使用tf.contrib.autograph将简单的python ifs和for循环转换为tf.conds和tf.while_loops，这可能会大大简化你的代码。

相关内容

最新更新

热门标签：