第九章元学习新进展

最新推荐文章于 2025-06-13 13:37:19 发布

原创

最新推荐文章于 2025-06-13 13:37:19 发布 · 926 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨元学习的最新进展，包括任务无关元学习（TAML），元模仿学习（MIL），用于无监督模型无关元学习的CACTUs算法，以及概念空间元学习。TAML旨在减少任务偏差，MIL结合模仿学习加速新任务学习，CACTUs通过聚类生成任务，概念空间元学习则将深度学习与元学习融合，提高泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、TAML

元学习中，通过相关任务的分布来训练模型，这样它就可以很容易的适应新任务，且只需几个样本。前面介绍的MAML是如何通过计算元梯度和执行元优化来找到模型的最优初始参数，但是会有一个问题：模型可能会在某些任务上有偏差，特别是在元训练阶段抽样的任务上。因此，模型会在这些任务上过度执行，就会阻碍寻找更好的更新规则。为了改善这种情况，我们需要模型在某些任务上无偏或不过度执行，也就是需要使模型与任务无关，来防止任务偏差并获得更好的泛化。

TAML有两种：熵最大化，不平等最小化（基尼系数、泰尔指数、算法的方差）。

2、元模仿学习（meta imitation learning，MIL）

如果让机器人通过观察人类的行为，学习复杂的目标而无须设计复杂的目标和奖惩函数，这种从人类行为中学习，被称为模仿学习。机器人需要大量的时间和演示来学习目标并识别正确的策略。因此我们将用先前的经验作为演示（训练数据）来增强机器人，这样就不必完全从头开始每项技能。同样可以加入元学习，重用演示数据并从几个相关的任务中学习，从而快速学习新任务，从而形成元模仿学习。使用MIL，我们可以利用来自各种其他任务的演示数据，以便通过单个演示快速学习新任务。因此，我们仅通过单个任务演示就可以找到新任务的正确策略。对于MIL，可以使用任何见过的元学习算法，例如MAML，它与任何可以通过梯度下降训练的算法兼容，我们将使用策略梯度作为寻找正确策略的算法，在策略梯度中，可以直接用某个参数对参数化的策略进行优化。

目标是学习一种策略，该策略可以从新任务的单个演示快速适应该任务。由此可以消除对每个任务的大量演示数据的依赖。