CPU环境使用DeepSeek微调打造智能医学AI博士助手：从原理到实践

本文链接：https://blog.csdn.net/dengdeng333/article/details/145871814

引言

本文详细介绍如何基于DeepSeek-R1-Distill-Qwen-1.5B模型，通过**LoRA（Low-Rank Adaptation）**微调技术，打造一个智能医学AI博士助手。你的点赞、收藏、评论是我创作的最大动力！

微调原理详解

什么是微调？

微调是指在预训练模型的基础上，通过在特定任务或领域的数据集上进一步训练，使模型适应新的需求。相比从零开始训练一个模型，微调具有以下优势：

效率高：利用预训练模型已有的知识，收敛速度更快。
数据需求少：只需少量标注数据即可实现较好的效果。
性能优：继承了预训练模型强大的语言理解能力。

对于像DeepSeek这样的语言模型来说，微调的过程通常涉及调整模型参数，使其在特定任务（如医学问答）上的损失函数最小化。然而，传统微调需要更新模型的全部参数，对于亿级参数的模型来说，这不仅计算成本高昂，还需要强大的硬件支持。

LoRA：高效微调技术

为了解决传统微调的资源瓶颈问题，**LoRA（Low-Rank Adaptation）**应运而生。LoRA是一种参数高效的微调方法，其核心思想是：不直接修改模型的原始权重，而是通过添加低秩矩阵来调整模型行为。

具体来说，LoRA在模型的某些层（例如注意力机制的投影层）中引入两个小的矩阵 ( A ) 和 ( B )，使得权重更新可以表示为：
[ \Delta W = A \cdot B ]
其中：

( A ) 和 ( B ) 是低秩矩阵，参数量远小于原始权重矩阵 ( W )。
( r )（秩）是一个超参数，用于控制矩阵的规模。

LoRA的优势：

参数量少：只需训练 ( A ) 和 ( B )，大幅减少计算和内存需求。
训练快：由于参数少，训练速度显著提升。
灵活性强：LoRA适配器可以随时加载或卸载，便于多任务切换。

在我的项目中，LoRA让我能够在普通CPU上完成微调任务，避免了对昂贵GPU的依赖。

为何选择DeepSeek-R1-Distill-Qwen-1.5B？

DeepSeek-R1-Distill-Qwen-1.5B 是DeepSeek系列中的一个轻量化模型，拥有15亿个参数，经过蒸馏优化后兼顾了性能和效率。选择它的理由包括：

适中的参数规模：相比更大的模型（如7B或13B），它更适合在资源有限的环境下运行。
强大的语言能力：预训练阶段赋予了它出色的文本生成和理解能力。
支持高效微调：模型架构与LoRA等技术兼容，易于适配特定任务。

对于医学AI博士项目来说，这个模型是一个理想的起点，既能满足任务需求，又能在我的硬件条件下顺利完成微调。

项目设计思路

医学AI博士的目标

我的目标是打造一个医学AI助手，能够：

解答医学问题：如“糖尿病的症状有哪些？”或“如何处理急性阑尾炎？”。
提供专业建议：基于医学知识给出准确、详尽的回答。
辅助医生工作：成为医生的得力助手，提升工作效率。

为了实现这些功能，我需要将DeepSeek模型微调为一个医学领域的专家，使其生成的内容更贴近专业需求。

数据集的选择与准备

数据集是微调成功的关键。我使用了一个名为 y_qa.json 的文件，其中包含医学相关的问答对，例如：

{
  "question": "糖尿病的症状有哪些？",
  "answer": "糖尿病的常见症状包括多饮、多尿、体重减轻、疲倦等。"
}

由于数据集可能较大，直接加载到内存中会导致溢出问题。因此，我设计了一个基于生成器的加载方式，确保数据按需读取，节省内存。

微调策略的制定

考虑到我的硬件限制（仅使用CPU），我制定了以下微调策略：

采用LoRA：减少需要训练的参数量，降低计算负担。
优化内存使用：通过生成器加载数据，避免一次性占用大量内存。
调整训练参数：使用小批量大小和梯度累积，平衡性能与资源消耗。

这些策略确保了项目在普通设备上的可行性，同时尽量保持模型性能。

实现过程解析

下面，我将详细解析项目的代码实现，带你走进每一个关键步骤。

模型与分词器加载

首先，我们需要加载DeepSeek模型和分词器。由于是在CPU上运行，我特别启用了低内存模式：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="cpu",              # 指定运行在CPU上
    torch_dtype=torch.float32,     # 使用32位浮点数
    low_cpu_mem_usage=True,        # 启用低内存加载
    trust_remote_code=True         # 信任远程代码
)

分词器：负责将文本转换为模型可理解的token序列。
模型加载：通过 low_cpu_mem_usage=True，模型会逐步加载权重，减少内存峰值。

数据集高效处理

为了避免内存问题，我实现了一个生成器类 JsonDatasetGenerator：

from datasets import Dataset

class JsonDatasetGenerator:
    def __init__(self, file_path, max_samples=1000):
        self.file_path = file_path
        self.max_samples = max_samples

    def __iter__(self):
        with open(self.file_path, "r", encoding="utf-8") as f:
            for idx, line in enumerate(json.load(f)):
                if idx >= self.max_samples:
                    break
                yield line

dataset = Dataset.from_generator(JsonDatasetGenerator, gen_kwargs={"file_path": "y_qa.json"})

生成器优点：每次只加载一条数据，避免将整个数据集读入内存。
参数控制：通过 max_samples 限制样本数量，便于测试和调试。

输入格式化与标签生成

模型需要明确区分“问题”和“回答”，并只对回答部分进行训练。我设计了以下预处理函数：

def format_with_labels(example):
    template = (
        f"{tokenizer.bos_token}"
        f"<|im_start|>system\n你是一名AI医生助理。<|im_end|>\n"
        f"<|im_start|>user\n{example['question']}<|im_end|>\n"
        f"<|im_start|>assistant\n{example['answer']}<|im_end|>{tokenizer.eos_token}"
    )

    tokenized = tokenizer(
        template,
        truncation=True,
        max_length=64,
        padding="max_length",
        return_offsets_mapping=True,
        add_special_tokens=False
    )

    assistant_start = template.find("<|im_start|>assistant\n") + len("<|im_start|>assistant\n")
    labels = []
    for token_idx, (start, end) in enumerate(tokenized.offset_mapping):
        if start >= assistant_start:
            labels.append(tokenized.input_ids[token_idx])
        else:
            labels.append(-100)

    return {
        "input_ids": tokenized["input_ids"],
        "attention_mask": tokenized["attention_mask"],
        "labels": labels
    }

模板设计：使用 <|im_start|> 和 <|im_end|> 分隔角色，符合Qwen模型的对话格式。
标签生成：将非回答部分的标签设为 -100，确保模型只学习生成回答内容。
截断与补齐：设置 max_length=64，统一输入长度。

LoRA配置与优化

为了高效微调，我使用了LoRA技术：

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,                   # 低秩参数
    lora_alpha=16,         # 缩放因子
    target_modules=["q_proj", "v_proj"],  # 目标模块
    lora_dropout=0.1,      # Dropout率
    bias="none"            # 不调整偏置
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

参数解释：
- r=8：控制LoRA矩阵的秩，值越小参数越少。
- target_modules：选择注意力机制的查询和值投影层进行适配。
效果验证：调用 print_trainable_parameters()，可以看到可训练参数仅占总量的很小一部分。

训练参数设置与内存管理

训练阶段需要特别优化以适应CPU环境：

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./medical_ai",
    per_device_train_batch_size=4,        # 小批量
    gradient_accumulation_steps=8,        # 梯度累积
    learning_rate=5e-5,                   # 低学习率
    num_train_epochs=5,                   # 训练轮次
    logging_steps=1,
    remove_unused_columns=False,          # 保留所有列
    optim="adamw_torch",
    report_to=["tensorboard"],
    save_strategy="no",
    dataloader_pin_memory=False,          # 关闭内存锁定
    disable_tqdm=False,
    fp16=False,                           # CPU不支持混合精度
    no_cuda=True                          # 禁用CUDA
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset.map(
        format_with_labels,
        batched=False,
        batch_size=20,
        remove_columns=dataset.column_names,
        keep_in_memory=False
    ),
    data_collator=lambda data: {
        k: torch.stack([torch.tensor(d[k]) for d in data])
        for k in data[0].keys()
    },
    tokenizer=tokenizer
)

批次优化：通过 gradient_accumulation_steps=8，模拟更大的批次大小。
内存管理：设置 keep_in_memory=False，减少缓存占用。

训练前后，我还加入了内存清理：

import gc

def cleanup():
    gc.collect()
    if torch.cuda.is_available():
        torch.cuda.empty_cache()

cleanup()
trainer.train()
model_save_path = "./medical_ai_finetuned"
trainer.save_model(model_save_path)
tokenizer.save_pretrained(model_save_path)
cleanup()