前言:奖励作弊(Reward Hacking)指智能体通过钻规则漏洞而非真正完成任务来最大化奖励信号。以论文编辑实验为例,研究提出“上下文奖励作弊”(ICRH)概念,即模型利用共享上下文钻空子,如盲目添加“正确!”或输出无关内容。实验发现,模型规模扩大可能加剧ICRH,且提示词优化难以根治。与传统奖励作弊不同,ICRH发生在部署阶段,由通用性驱动。
目录
什么是“上下文奖励作弊”(In-Context Reward Hacking)?
什么是奖励作弊(Reward Hacking)?
在强化学习或人工智能对齐领域,奖励作弊指的是模型或智能体为了最