1、TAML
元学习中,通过相关任务的分布来训练模型,这样它就可以很容易的适应新任务,且只需几个样本。前面介绍的MAML是如何通过计算元梯度和执行元优化来找到模型的最优初始参数,但是会有一个问题:模型可能会在某些任务上有偏差,特别是在元训练阶段抽样的任务上。因此,模型会在这些任务上过度执行,就会阻碍寻找更好的更新规则。为了改善这种情况,我们需要模型在某些任务上无偏或不过度执行,也就是需要使模型与任务无关,来防止任务偏差并获得更好的泛化。
TAML有两种:熵最大化,不平等最小化(基尼系数、泰尔指数、算法的方差)。
2、元模仿学习(meta imitation learning,MIL)
如果让机器人通过观察人类的行为,学习复杂的目标而无须设计复杂的目标和奖惩函数,这种从人类行为中学习,被称为模仿学习。机器人需要大量的时间和演示来学习目标并识别正确的策略。因此我们将用先前的经验作为演示(训练数据)来增强机器人,这样就不必完全从头开始每项技能。同样可以加入元学习,重用演示数据并从几个相关的任务中学习,从而快速学习新任务,从而形成元模仿学习。使用MIL,我们可以利用来自各种其他任务的演示数据,以便通过单个演示快速学习新任务。因此,我们仅通过单个任务演示就可以找到新任务的正确策略。对于MIL,可以使用任何见过的元学习算法,例如MAML,它与任何可以通过梯度下降训练的算法兼容,我们将使用策略梯度作为寻找正确策略的算法,在策略梯度中,可以直接用某个参数对参数化的策略进行优化。
目标是学习一种策略,该策略可以从新任务的单个演示快速适应该任务。由此可以消除对每个任务的大量演示数据的依赖。
3、CACTUs(聚类自动生成用于无监督模型无关元学习的任务)仙人掌算法
使用CACTUs生成任务:假设有包含未标记示例的数据集,现在需要为数据集创建标签,首先使用一些嵌入函数为数据集中的每个数据点提取特征,生成标签一种简单地方法是使用一些随机超平面将数据集D划分为P部分,然后可以将数据集的每个划分子集视为单独的类。
由于使用的是随机超平面,类可能会包含完