第九章 元学习新进展

本文探讨元学习的最新进展,包括任务无关元学习(TAML),元模仿学习(MIL),用于无监督模型无关元学习的CACTUs算法,以及概念空间元学习。TAML旨在减少任务偏差,MIL结合模仿学习加速新任务学习,CACTUs通过聚类生成任务,概念空间元学习则将深度学习与元学习融合,提高泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、TAML

元学习中,通过相关任务的分布来训练模型,这样它就可以很容易的适应新任务,且只需几个样本。前面介绍的MAML是如何通过计算元梯度和执行元优化来找到模型的最优初始参数,但是会有一个问题:模型可能会在某些任务上有偏差,特别是在元训练阶段抽样的任务上。因此,模型会在这些任务上过度执行,就会阻碍寻找更好的更新规则。为了改善这种情况,我们需要模型在某些任务上无偏或不过度执行,也就是需要使模型与任务无关,来防止任务偏差并获得更好的泛化。

TAML有两种:熵最大化,不平等最小化(基尼系数、泰尔指数、算法的方差)。

2、元模仿学习(meta imitation learning,MIL)

如果让机器人通过观察人类的行为,学习复杂的目标而无须设计复杂的目标和奖惩函数,这种从人类行为中学习,被称为模仿学习。机器人需要大量的时间和演示来学习目标并识别正确的策略。因此我们将用先前的经验作为演示(训练数据)来增强机器人,这样就不必完全从头开始每项技能。同样可以加入元学习,重用演示数据并从几个相关的任务中学习,从而快速学习新任务,从而形成元模仿学习。使用MIL,我们可以利用来自各种其他任务的演示数据,以便通过单个演示快速学习新任务。因此,我们仅通过单个任务演示就可以找到新任务的正确策略。对于MIL,可以使用任何见过的元学习算法,例如MAML,它与任何可以通过梯度下降训练的算法兼容,我们将使用策略梯度作为寻找正确策略的算法,在策略梯度中,可以直接用某个参数对参数化的策略进行优化。

目标是学习一种策略,该策略可以从新任务的单个演示快速适应该任务。由此可以消除对每个任务的大量演示数据的依赖。

3、CACTUs(聚类自动生成用于无监督模型无关元学习的任务)仙人掌算法

使用CACTUs生成任务:假设有包含未标记示例的数据集,现在需要为数据集创建标签,首先使用一些嵌入函数为数据集中的每个数据点提取特征,生成标签一种简单地方法是使用一些随机超平面将数据集D划分为P部分,然后可以将数据集的每个划分子集视为单独的类。

由于使用的是随机超平面,类可能会包含完

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值