李沐--图像分类数据集

函数和包详解:

1.torchvision:torch类型的可视化包,一般计算机视觉和数据可视化需要使用

2.from torchvision import transforms:这个组件经常用于图片的修改(一般数据集中的图片都是PIL格式,使用的时候需要转化为tensor,而在加入函数时常需要转化为nadarry)

3.d2l.use_svg_display():使用什么模式展示图片

4.torchvision.datasets:一般用于图像数据集的下载和获取

eg:torchvision.datasets.FashionMNIST( root=, train=True, transform=, download=True):train:是否为训练集, transform:使用什么转换方式(可以从transforms组件中选择),download:是否下载对应数据集。(.FashionMNIST可以更换为其他数据源)

5对4.对于获得的数据,一般是一个X对一个Y,X每个为(1,行,列){通道数:1(彩色图片是3),图片宽度,图片长度}。数据类型不是元组和列表,但是可以通过直接切片调用,且[i][0]为X,[i][1]为Y。

6.enumerate(zip(axes, imgs):enumerate():生成可以遍历的每个元素有对应序号(0,1,2,3...)的enumerate对象(一种迭代器)

zip():把多个向量按照每列对应的关系组成一个一个小元组

里面每个元素大概为i, (ax, img)形式

7._, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)。第一个参数是个图,一般不用;第二个axes类似于图片的索引的矩阵((行,列))

8。next(iter(data.DataLoader(mnist_train, batch_size=18)))。:next()可以对iter()中的迭代器(元组,列表)使用,一次取一个,没有for只取一次。

9.Dataloader中的数据不能直接索引调用,需要使用next加迭代器调用

10,imshow()可以接收二维,三维甚至多维数组。二维默认为一通道即灰度图像,三维需要在第三个维度指定图像通道数(必须是第三维)

11.subplots函数只能有两个位置参数,一个行数,一个列数。

实现历程:1.数据获取2,函数:标签和标签名对应3.函数:绘制图像列表4.读取小批量5.尝试定义一个可以更改图片比例的批量读取函数

### 图像增广的数据集与相关资料 在《动手学深度学习》中详细介绍了图像增广的概念及其在机器学习和深度学习中的应用。图像增广是一种通过变换现有图像数据来生成新训练样本的技术,从而增强模型的泛化能力[^2]。以下是一些与图像增广相关的数据集和资料: 1. **CIFAR-10 数据集** CIFAR-10 是一个广泛使用的图像分类数据集,包含 60,000 张 32x32 彩色图像,分为 10 个类别。在课程中使用了该数据集作为图像增广的一个示例,展示了如何通过翻转、裁剪等方法扩充数据集[^2]。 2. **ImageNet 数据集** ImageNet 是一个大规模图像识别数据集,包含超过 1400 万张标注图像。虽然数据集本身并非由创建,但在其课程中,提到了如何利用 ImageNet 数据进行微调和图像增广的应用[^3]。 3. **Fashion-MNIST 数据集** Fashion-MNIST 是 MNIST 手写数字数据集的替代品,包含 70,000 张灰度图像,分为 10 个服装类别。在其教程中也用此数据集演示了图像增广技术[^2]。 4. **官方文档和代码库** 的《动手学深度学习》提供了完整的代码实现和理论讲解,其中包含了图像增广的详细说明和代码示例。例如,在 PyTorch 本中,`torchvision.transforms` 模块被用来实现多种图像增广方法,如翻转、裁剪、旋转等[^2]。 以下是基于 PyTorch 的图像增广代码示例: ```python import torchvision.transforms as transforms # 定义图像增广操作 transform = transforms.Compose([ transforms.RandomHorizontalFlip(), # 随机水平翻转 transforms.RandomResizedCrop(224), # 随机裁剪并调整大小 transforms.ColorJitter(brightness=0.5, contrast=0.5, saturation=0.5, hue=0.1), # 色彩变换 transforms.ToTensor(), # 转换为张量 transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) # 标准化 ]) ``` ### 相关资源链接 - 《动手学深度学习》官方文档:[d2l.ai](https://d2l.ai/) - CIFAR-10 数据集下载地址:[CIFAR-10](https://www.cs.toronto.edu/~kriz/cifar.html) - ImageNet 数据集官网:[ImageNet](http://www.image-net.org/)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值