1. 概述
大型语言模型(LLMs)(Anthropic, 2023; OpenAI, 2024)已经在广泛的实际应用中展示了显著的能力(Bubeck et al., 2023),包括内容创作(Yuan et al., 2022)、编程辅助(Chen et al., 2021; Gao et al., 2023)和数学推理(Wei et al., 2022)。随着LLMs在日常AI系统中的日益整合,确保它们与人类偏好(如有帮助、无害和诚实)的一致性已成为一个关键挑战。为了解决这一挑战,已经开发了各种对齐技术(Ji et al., 202