2017-10-15 78 views
0

我想从tensorflow中使用tf.train.shuffle_batch函数,然后我需要先使用tf.image.decode_jpeg(或其他类似的函数来加载png和jpg)加载图像。但是我发现图像被加载为概率图,这意味着像素值的最大值为1,像素值的最小值为0.下面是我从github回购库更新的代码。我不知道为什么像素的值被归一化为[0,1],并且我没有找到张量流的相关文档。任何人都可以帮我吗?谢谢。为tf.image.decode_jpeg和tf.train.shuffle_batch规范化了图像像素值?

def load_examples(self, input_dir, flip, scale_size, batch_size, min_queue_examples): 
    input_paths = get_image_paths(input_dir) 
    with tf.name_scope("load_images"): 
     path_queue = tf.train.string_input_producer(input_paths) 
     reader = tf.WholeFileReader() 
     paths, contents = reader.read(path_queue) 
     # note this is important for truncated images 
     raw_input = tf.image.decode_jpeg(contents,try_recover_truncated = True, acceptable_fraction=0.5) 
     raw_input = tf.image.convert_image_dtype(raw_input, dtype=tf.float32) 
     raw_input.set_shape([None, None, 3]) 

     # break apart image pair and move to range [-1, 1] 
     width = tf.shape(raw_input)[1] # [height, width, channels] 
     a_images = preprocess(raw_input[:, :width // 2, :]) 
     b_images = raw_input[:, width // 2:, :] 

    inputs, targets = [a_images, b_images] 

    def transform(image): 
     r = image 

     r = tf.image.resize_images(r, [self.image_height, self.image_width], method=tf.image.ResizeMethod.AREA) 
     return r 
    def transform_gaze(image): 
     r = image 
     r = tf.image.resize_images(r, [self.gaze_height, self.gaze_width], method=tf.image.ResizeMethod.AREA) 
     return r 
    with tf.name_scope("input_images"): 
     input_images = transform(inputs) 

    with tf.name_scope("target_images"): 
     target_images = transform(targets) 
    total_image_count = len(input_paths) 
    # target_images = tf.image.per_image_standardization(target_images) 
    target_images = target_images[:,:,0] 
    target_images = tf.expand_dims(target_images, 2) 
    inputs_batch, targets_batch = tf.train.shuffle_batch([input_images, target_images], 
             batch_size=batch_size, 
             num_threads=1, 
             capacity=min_queue_examples + 3 * batch_size, 
             min_after_dequeue=min_queue_examples) 
    # inputs_batch, targets_batch = tf.train.batch([input_images, target_images],batch_size=batch_size) 
    return inputs_batch, targets_batch, total_image_count 

回答

2

由于是tf.image.decode_*方法所做的值,因此值为[0,1]。一般来说,当一个方法返回一个浮点张量时,它的值应该在[0,1]范围内,而如果返回的张量是一个uint8,则该值应该在[0,255]范围内。

此外,当您使用tf.image.convert_image_dtype方法来转换输入图像的dtype时,您正在应用该转换规则。

如果您的输入图像是一个uint8图像,并将其转换为float32,则这些值将缩放到[0,1]范围内。如果你的图像已经是一个浮点数,那么它的值应该在这个范围内,而且什么都不做。

+0

嗨我还有一个问题,我添加输入数据的图像摘要,就像这样:tf.summary.image('training_truth',self.targets,4)它在我看来,在张量板,图像显示在[0,255]范围内。那么这是否意味着对我的模型的图像批处理被标准化,而张量板可视化仍然是[0,255]?谢谢 –

+0

是的,图像汇总检查输入类型。如果它是浮动的,那么它会将这些值缩放到0.255范围内,以便可视化 – nessuno

+0

太棒了,谢谢你的回答! –