TensorFlow tf.data.Dataset.cache似乎没有达到预期效果 [英] Tensorflow tf.data.Dataset.cache seems do not take the expected effect

查看：25 发布时间：2022/4/1 22:22:07 python tensorflow tensorflow2.0 tensorflow-datasets

本文介绍了TensorFlow tf.data.Dataset.cache似乎没有达到预期效果的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在努力按照Better performance with the tf.data API指导方针提高我的模型培训成绩。然而，我观察到，使用.cache()的性能与不使用.cache()的相同设置几乎相同，甚至更差。

datafile_list = load_my_files()
RAW_BYTES = 403*4
BATCH_SIZE = 32

raw_dataset = tf.data.FixedLengthRecordDataset(filenames=datafile_list, record_bytes=RAW_BYTES, num_parallel_reads=10, buffer_size=1024*RAW_BYTES)
raw_dataset = raw_dataset.map(tf.autograph.experimental.do_not_convert(decode_and_prepare),
    num_parallel_calls=tf.data.AUTOTUNE)
raw_dataset = raw_dataset.cache()
raw_dataset = raw_dataset.shuffle(buffer_size=1024)
raw_dataset = raw_dataset.batch(BATCH_SIZE)
raw_dataset = raw_dataset.prefetch(tf.data.AUTOTUNE)

datafile_list中的数据为9.92 GB，与系统可用的总物理RAM(100 GB)相当匹配。系统交换已禁用。

通过使用数据集训练模型：

model = build_model()
model.fit(raw_dataset, epochs=5, verbose=2)

结果：

Epoch 1/5
206247/206247 - 126s - loss: 0.0043 - mae: 0.0494 - mse: 0.0043
Epoch 2/5
206247/206247 - 125s - loss: 0.0029 - mae: 0.0415 - mse: 0.0029
Epoch 3/5
206247/206247 - 129s - loss: 0.0027 - mae: 0.0397 - mse: 0.0027
Epoch 4/5
206247/206247 - 125s - loss: 0.0025 - mae: 0.0386 - mse: 0.0025
Epoch 5/5
206247/206247 - 125s - loss: 0.0024 - mae: 0.0379 - mse: 0.0024

这个结果令人沮丧。按docs：

第一次迭代数据集时，其元素将缓存在指定的文件或内存中。后续迭代将使用缓存的数据。

和来自this guide：

迭代此数据集时，得益于缓存，第二次迭代将比第一次迭代快得多。

然而，所有历代所花费的时间几乎是相同的。此外，在培训期间，CPU和GPU的使用率都非常低(见下图)。

通过注释掉raw_dataset = raw_dataset.cache()行，结果没有显示任何显著差异：

Epoch 1/5
206067/206067 - 129s - loss: 0.0042 - mae: 0.0492 - mse: 0.0042
Epoch 2/5
206067/206067 - 127s - loss: 0.0028 - mae: 0.0412 - mse: 0.0028
Epoch 3/5
206067/206067 - 134s - loss: 0.0026 - mae: 0.0393 - mse: 0.0026
Epoch 4/5
206067/206067 - 127s - loss: 0.0024 - mae: 0.0383 - mse: 0.0024
Epoch 5/5
206067/206067 - 126s - loss: 0.0023 - mae: 0.0376 - mse: 0.0023

正如文档中所指出的，我的预期是使用缓存将导致更快的培训时间。我想知道我做错了什么。

附件

使用缓存培训期间的GPU使用率：

在没有缓存的情况下培训期间的GPU使用率：

培训期间使用缓存的系统统计数据(内存、CPU等)：

没有缓存的培训期间的系统统计数据(内存、CPU等)：

推荐答案

只是使用Google Colab进行的一个小观察。根据docs：

注意：为了最终确定缓存，必须遍历整个输入数据集。否则，后续迭代将不使用缓存数据。

和

注意：缓存将在每个过程中生成完全相同的元素对数据集进行迭代。如果您希望随机化迭代请确保在调用缓存后调用Shuffle。

我注意到在使用缓存和预先迭代数据集时有一些不同之处。这里有一个例子。

准备数据：

import random
import struct
import tensorflow as tf
import numpy as np

RAW_N = 2 + 20*20 + 1

bytess = random.sample(range(1, 5000), RAW_N*4)
with open('mydata.bin', 'wb') as f:
  f.write(struct.pack('1612i', *bytess))
def decode_and_prepare(register):
  register = tf.io.decode_raw(register, out_type=tf.float32)
  inputs = register[2:402]
  label = tf.random.uniform(()) + register[402:]
  return inputs, label

raw_dataset = tf.data.FixedLengthRecordDataset(filenames=['/content/mydata.bin']*7000, record_bytes=RAW_N*4)
raw_dataset = raw_dataset.map(decode_and_prepare)

训练模型无需预先缓存和迭代：

total_data_entries = len(list(raw_dataset.map(lambda x, y: (x, y))))
train_ds = raw_dataset.shuffle(buffer_size=total_data_entries).batch(32).prefetch(tf.data.AUTOTUNE)
inputs = tf.keras.layers.Input((400,))
x = tf.keras.layers.Dense(200, activation='relu', kernel_initializer='normal')(inputs)
x = tf.keras.layers.Dense(100, activation='relu', kernel_initializer='normal')(x)
outputs = tf.keras.layers.Dense(1, kernel_initializer='normal')(x)
model = tf.keras.Model(inputs, outputs)
model.compile(optimizer='adam', loss='mse')
model.fit(train_ds, epochs=5)

Epoch 1/5
875/875 [==============================] - 4s 3ms/step - loss: 0.1425
Epoch 2/5
875/875 [==============================] - 4s 3ms/step - loss: 0.0841
Epoch 3/5
875/875 [==============================] - 4s 3ms/step - loss: 0.0840
Epoch 4/5
875/875 [==============================] - 4s 3ms/step - loss: 0.0840
Epoch 5/5
875/875 [==============================] - 4s 3ms/step - loss: 0.0840
<keras.callbacks.History at 0x7fc41be037d0>

培训模型使用缓存但无迭代：

total_data_entries = len(list(raw_dataset.map(lambda x, y: (x, y))))
train_ds = raw_dataset.shuffle(buffer_size=total_data_entries).cache().batch(32).prefetch(tf.data.AUTOTUNE)
inputs = tf.keras.layers.Input((400,))
x = tf.keras.layers.Dense(200, activation='relu', kernel_initializer='normal')(inputs)
x = tf.keras.layers.Dense(100, activation='relu', kernel_initializer='normal')(x)
outputs = tf.keras.layers.Dense(1, kernel_initializer='normal')(x)
model = tf.keras.Model(inputs, outputs)
model.compile(optimizer='adam', loss='mse')
model.fit(train_ds, epochs=5)

Epoch 1/5
875/875 [==============================] - 4s 2ms/step - loss: 0.1428
Epoch 2/5
875/875 [==============================] - 2s 2ms/step - loss: 0.0841
Epoch 3/5
875/875 [==============================] - 2s 2ms/step - loss: 0.0840
Epoch 4/5
875/875 [==============================] - 2s 2ms/step - loss: 0.0840
Epoch 5/5
875/875 [==============================] - 2s 3ms/step - loss: 0.0840
<keras.callbacks.History at 0x7fc41fa87810>

使用缓存和迭代的培训模型：

total_data_entries = len(list(raw_dataset.map(lambda x, y: (x, y)))) train_ds = raw_dataset.shuffle(buffer_size=total_data_entries).cache().batch(32).prefetch(tf.data.AUTOTUNE) _ = list(train_ds.as_numpy_iterator()) # iterate dataset beforehand inputs = tf.keras.layers.Input((400,)) x = tf.keras.layers.Dense(200, activation='relu', kernel_initializer='normal')(inputs) x = tf.keras.layers.Dense(100, activation='relu', kernel_initializer='normal')(x) outputs = tf.keras.layers.Dense(1, kernel_initializer='normal')(x) model = tf.keras.Model(inputs, outputs) model.compile(optimizer='adam', loss='mse') model.fit(train_ds, epochs=5)

Epoch 1/5 875/875 [==============================] - 3s 3ms/step - loss: 0.1427 Epoch 2/5 875/875 [==============================] - 2s 2ms/step - loss: 0.0841 Epoch 3/5 875/875 [==============================] - 2s 2ms/step - loss: 0.0840 Epoch 4/5 875/875 [==============================] - 2s 2ms/step - loss: 0.0840 Epoch 5/5 875/875 [==============================] - 2s 2ms/step - loss: 0.0840 <keras.callbacks.History at 0x7fc41ac9c850>

结论：数据集的缓存和先前迭代似乎对训练有影响，但在本例中仅使用了7000个文件。

这篇关于TensorFlow tf.data.Dataset.cache似乎没有达到预期效果的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

TensorFlow tf.data.Dataset.cache似乎没有达到预期效果 [英] Tensorflow tf.data.Dataset.cache seems do not take the expected effect

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录关闭

TensorFlow tf.data.Dataset.cache似乎没有达到预期效果 [英] Tensorflow tf.data.Dataset.cache seems do not take the expected effect

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭