本文翻译整理自:https://github.com/NovaSky-AI/SkyThought
文章目录
一、关于 SkyThought
SkyThought 是 NovaSky-AI 推出的开源AI模型训练与评估框架,专注于提升大语言模型在数学、编程和科学领域的推理能力。该项目提供完整的数据处理、训练脚本和评估工具链。
相关链接资源
- github : https://github.com/NovaSky-AI/SkyThought
- 官网:https://novasky-ai.github.io/
- 官方文档:https://github.com/NovaSky-AI/SkyThought/tree/main/docs
- Hugging Face : https://huggingface.co/NovaSky-AI
- Demo/在线试用:http://164.152.23.196:3000/
- Blog : https://novasky-ai.github.io/posts/
- Discord : https://discord.gg/RBAjeWSA
- Twitter : https://x.com/NovaSkyAI
关键功能特性
- 提供完整的模型训练流程(包括RLHF训练)
- 支持多种数学/编程基准测试评估
- 开源模型权重和训练数据
- 包含测试时扩展框架(Test time scaling)
- 支持多领域评估(数学、编程、科学等)
二、安装
支持 Python 3.10+ 环境
通过PyPI安装
pip install skythought
从源码安装
# 克隆仓库
git clone https://github.com/NovaSky-AI/SkyThought.git
cd SkyThought
# 创建并激活虚拟环境
uv venv --python 3.10
source .venv/bin/activate
# 以可编辑模式安装
uv pip install -e .
三、快速开始
1、模型评估
使用CLI工具评估模型性能:
skythought evaluate --model NovaSky-AI/Sky-T1-32B-Preview --task aime24
2、支持的数据集
框架支持多种评估基准:
- 数学:AIME’24、MATH500、GSM8K、AMC’23
- 编程:LiveCodeBench、APPS、TACO
- 科学:GPQADiamond、MMLU、ARC-Challenge
- 综合:OlympiadBench、MinervaMath
完整列表参见评估指南
四、模型性能
1、核心基准测试结果
Metric | Sky-T1-32B-Preview | Qwen-2.5-32B-Instruct | QwQ | o1-preview |
---|---|---|---|---|
Math500 | 86.4 | 81.4 | 92.2 | 81.4 |
AIME2024 | 43.3 | 16.7 | 50.0 | 40.0 |
LiveCodeBench-Easy | 86.3 | 84.6 | 90.7 | 92.9 |
LiveCodeBench-Medium | 56.8 | 40.8 | 56.3 | 54.9 |
LiveCodeBench-Hard | 17.9 | 9.8 | 17.1 | 16.3 |
GPQA-Diamond | 56.8 | 45.5 | 52.5 | 75.2 |
OlympiadBench (Math, EN) | 59.79 | 46.74 | 62.17 | 59.2 |
2、非推理任务表现
Metric | Sky-T1-32B-Preview | Qwen-2.5-32B-Instruct | QwQ-32B-Preview | Eval Implementation |
---|---|---|---|---|
MMLU (0 shot; no CoT) | 78.36 | 74.14 | 71.23 | lm_eval |
MMLU (5 shot; no CoT) | 82.46 | 82.62 | 82.32 | lm_eval |
ARC-C (0 shot; no CoT) | 49.49 | 49.4 | 49.66 | lm_eval |
IFEval | 75.79 | 78.74 | 42.51 | lm_eval |
LLM-as-a-Judge | 9.12 | 9.19 | 8.30 | fastchat |
MGSM (0 shot; direct ) | 33 | 42.3 | 19.07 | lm_eval |
MGSM (8-shot; direct ) | 58.4 | 61.47 | 58.5 | lm_eval |
BFCL-v3 | 53.18 | 58.92 | 17.41 | BFCL |
Arena-Hard | 74.79 | 66.51 | 52.6 | Arena-Hard-Auto |
五、开源承诺
我们全面开源模型相关资源:
Model | Sky-T1-32B-Preview | STILL-2 | Journey | QwQ | o1 |
---|---|---|---|---|---|
Data | ✅ | ✅ | ❌ | ❌ | ❌ |
Code | ✅ | ❌ | ❌ | ❌ | ❌ |
Report | ✅ | ✅ | ✅ | ❌ | ❌ |
Math domain | ✅ | ✅ | ✅ | ✅ | ✅ |
Coding domain | ✅ | ❌ | ❌ | ✅ | ✅ |
Model Weights | ✅ | ✅ | ❌ | ✅ | ❌ |
六、致谢
特别感谢以下机构的计算资源支持:
伊织 xAI 2025-04-23(三)