SkyThought - 开源AI模型训练与评估框架-CSDN博客

本文链接：https://blog.csdn.net/lovechris00/article/details/147463234

本文翻译整理自：https://github.com/NovaSky-AI/SkyThought

文章目录

一、关于 SkyThought

SkyThought 是 NovaSky-AI 推出的开源AI模型训练与评估框架，专注于提升大语言模型在数学、编程和科学领域的推理能力。该项目提供完整的数据处理、训练脚本和评估工具链。

关键功能特性

提供完整的模型训练流程（包括RLHF训练）
支持多种数学/编程基准测试评估
开源模型权重和训练数据
包含测试时扩展框架（Test time scaling）
支持多领域评估（数学、编程、科学等）

二、安装

支持 Python 3.10+ 环境

通过PyPI安装

pip install skythought

从源码安装

# 克隆仓库
git clone https://github.com/NovaSky-AI/SkyThought.git
cd SkyThought

# 创建并激活虚拟环境
uv venv --python 3.10
source .venv/bin/activate

# 以可编辑模式安装
uv pip install -e .

三、快速开始

1、模型评估

使用CLI工具评估模型性能：

skythought evaluate --model NovaSky-AI/Sky-T1-32B-Preview --task aime24

2、支持的数据集

框架支持多种评估基准：

数学：AIME’24、MATH500、GSM8K、AMC’23
编程：LiveCodeBench、APPS、TACO
科学：GPQADiamond、MMLU、ARC-Challenge
综合：OlympiadBench、MinervaMath

完整列表参见评估指南

四、模型性能

1、核心基准测试结果

Metric	Sky-T1-32B-Preview	Qwen-2.5-32B-Instruct	QwQ	o1-preview
Math500	86.4	81.4	92.2	81.4
AIME2024	43.3	16.7	50.0	40.0
LiveCodeBench-Easy	86.3	84.6	90.7	92.9
LiveCodeBench-Medium	56.8	40.8	56.3	54.9
LiveCodeBench-Hard	17.9	9.8	17.1	16.3
GPQA-Diamond	56.8	45.5	52.5	75.2
OlympiadBench (Math, EN)	59.79	46.74	62.17	59.2

2、非推理任务表现

Metric	Sky-T1-32B-Preview	Qwen-2.5-32B-Instruct	QwQ-32B-Preview	Eval Implementation
MMLU (0 shot; no CoT)	78.36	74.14	71.23	lm_eval
MMLU (5 shot; no CoT)	82.46	82.62	82.32	lm_eval
ARC-C (0 shot; no CoT)	49.49	49.4	49.66	lm_eval
IFEval	75.79	78.74	42.51	lm_eval
LLM-as-a-Judge	9.12	9.19	8.30	fastchat
MGSM (0 shot; `direct`)	33	42.3	19.07	lm_eval
MGSM (8-shot; `direct`)	58.4	61.47	58.5	lm_eval
BFCL-v3	53.18	58.92	17.41	BFCL
Arena-Hard	74.79	66.51	52.6	Arena-Hard-Auto