【大模型学习】使用DPO技术对大模型Qwen2进行微调

智刃纪元

已于 2025-04-23 17:33:26 修改

阅读量2.1k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： # AI大语言模型学习文章标签：机器学习深度学习算法

于 2024-08-12 14:56:53 首次发布

本文链接：https://blog.csdn.net/weixin_44463519/article/details/141131368

AI大语言模型学习专栏收录该内容

5 篇文章

订阅专栏

文章目录

一、环境准备
二、数据准备
三、配置DPO训练
- 1、配置文件
四、执行训练
五、评估和保存模型

一、环境准备

首先，确保环境中已经安装相关依赖，你需要安装 Hugging Face 的 transformers 和 trl 库，如果还没有安装，可以使用以下命令：

pip install transformers trl

二、数据准备

根据单轮对话和多轮对话的需求，你需要选择合适的数据集，并将其处理为 DPO 所需的格式。
单轮对话
1、选择数据集：lvwerra/stack-exchange-paired
2、下载数据集：可以使用 Hugging Face 的 datasets 库来加载数据集：

from datasets import load_dataset
dataset = load_dataset('lvwerra/stack-exchange-paired')

3、数据格式：将数据处理为 DPO 所需的格式。通常，DPO 需要一个包含对话对和相应偏好标签的数据集。
多轮对话

三、配置DPO训练

1、配置文件

你需要配置 DPO 的训练参数，包括模型配置、训练设置等。以下是一个基本的配置示例（通常保存在 YAML 文件中）：

model:
  name_or_path: "Qwen2"  # 替换为 Qwen2 的模型路径或名称
  bos_token_id: 0  # 设置 bos_token_id，如果模型没有此 token

training:
  output_dir: "./output"
  per_device_train_batch_size: 8
  per_device_eval_batch_size: 8
  num_train_epochs: 3
  logging_dir: "./logs"
  logging_steps: 10
  evaluation_strategy: "steps"
  save_strategy: "epoch"

dpo:
  draw_threshold: 0.25
  # 其他 DPO 特定配置

创建 DPO 训练器

from trl import DPOTrainer
from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import load_dataset

# 加载模型和 tokenizer
model_name = "Qwen2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 加载数据集
dataset = load_dataset('lvwerra/stack-exchange-paired')

# 配置 DPO 训练
dpo_trainer = DPOTrainer(
    model=model,
    args=train_args,  # 训练参数从 YAML 文件中加载
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    tokenizer=tokenizer
)

# 执行训练
dpo_trainer.train()

四、执行训练

在配置完成后，你可以运行训练脚本来微调模型：

python train_dpo.py --config_path path/to/your/config.yaml

五、评估和保存模型

训练完成后，你可以评估模型的性能，并保存微调后的模型：

# 保存模型
model.save_pretrained("./output")

# 评估模型
results = dpo_trainer.evaluate()
print(results)