文章主要内容总结
该研究旨在评估具有推理能力的大型语言模型(LLMs)在临床文档层级分类(特别是ICD-10代码分类)中的表现。
- 研究背景:ICD-10代码是临床编码的核心,具有层级结构(共5级,从宽泛到具体),人工编码耗时且易出错。LLMs有望辅助编码,但其实用性和推理能力尚未明确。
- 研究目标:对比11种LLMs(含推理模型和非推理模型)在ICD-10代码分类中的表现,评估结构化推理对模型性能的影响。
- 研究方法:使用MIMIC-IV数据集的1500份出院小结(涵盖10个高频ICD-10代码),通过临床NLP工具cTAKES提取医疗相关概念,以标准化提示词输入LLMs,采用F1分数在ICD-10的3、4、5级(从宽泛到具体)评估“主要诊断”和“所有诊断”分类任务。
- 研究结果:所有LLMs的F1分数均未超过57%;推理模型平均表现优于非推理模型,其中Gemini 2.5 Pro性能最佳;代码特异性越高(层级越高),模型表现越差;部分代码(如I25,慢性缺血性心脏病)分类较准,而Y92、Z51等代码的F1分数接近0。
- 研究结论:具有推理能力的LLMs可辅助临床编码,但尚未达到自主部署标准,其性能受ICD-10粒度和诊断类别变异性限制。未来需探索混合模型、领域微调及结构化临床数据整合。
创新点
- 系统对比推理与非推理LLMs