TensorFlow Dataset API 实战教程：从内存到磁盘的数据加载与处理

最新推荐文章于 2025-07-15 16:31:32 发布

贺晔音

最新推荐文章于 2025-07-15 16:31:32 发布

阅读量343

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00340/article/details/148890074

TensorFlow Dataset API 实战教程：从内存到磁盘的数据加载与处理

概述

本教程将深入探讨 TensorFlow 的 Dataset API，这是构建高效数据输入管道的核心工具。我们将从基础的内存数据加载开始，逐步深入到磁盘数据读取，并学习如何构建生产级的数据处理流程。

第一部分：从内存加载数据

创建内存数据集

我们首先创建一个简单的合成数据集，模拟线性关系 y = 2x + 10：

N_POINTS = 10
X = tf.constant(range(N_POINTS), dtype=tf.float32)
Y = 2 * X + 10

构建 Dataset 管道

关键步骤是使用 tf.data.Dataset.from_tensor_slices 将数据转换为 Dataset 对象：

def create_dataset(X, Y, epochs, batch_size):
    dataset = tf.data.Dataset.from_tensor_slices((X, Y))
    dataset = dataset.repeat(epochs).batch(batch_size, drop_remainder=True)
    return dataset

参数说明：

repeat(epochs)：指定数据集重复次数
batch(batch_size)：设置批处理大小
drop_remainder=True：丢弃最后不完整的批次

训练循环实现

使用 Dataset API 的训练循环更加简洁：

EPOCHS = 250
BATCH_SIZE = 2
LEARNING_RATE = 0.02

w0 = tf.Variable(0.0)
w1 = tf.Variable(0.0)

dataset = create_dataset(X, Y, EPOCHS, BATCH_SIZE)

for step, (X_batch, Y_batch) in enumerate(dataset):
    dw0, dw1 = compute_gradients(X_batch, Y_batch, w0, w1)
    w0.assign_sub(dw0 * LEARNING_RATE)
    w1.assign_sub(dw1 * LEARNING_RATE)

第二部分：从磁盘加载数据

CSV 文件处理

对于存储在磁盘上的数据（如出租车费用数据集），我们可以使用 tf.data.experimental.make_csv_dataset：

CSV_COLUMNS = [
    "fare_amount", "pickup_datetime", 
    "pickup_longitude", "pickup_latitude",
    "dropoff_longitude", "dropoff_latitude",
    "passenger_count", "key"
]
LABEL_COLUMN = "fare_amount"
DEFAULTS = [[0.0], ["na"], [0.0], [0.0], [0.0], [0.0], [0.0], ["na"]]

构建完整的数据管道

完整的处理流程包括：

读取CSV文件
过滤不需要的列
分离特征和标签
批处理
缓存
混洗（仅训练时）
预取

def create_dataset(pattern, batch_size=1, mode="eval"):
    dataset = tf.data.experimental.make_csv_dataset(
        pattern, batch_size, CSV_COLUMNS, DEFAULTS, shuffle=False
    )
    
    dataset = dataset.map(features_and_labels).cache()
    
    if mode == "train":
        dataset = dataset.shuffle(1000).repeat()
    
    dataset = dataset.prefetch(1)
    return dataset