SkyThought - 开源AI模型训练与评估框架

本文翻译整理自:https://github.com/NovaSky-AI/SkyThought


一、关于 SkyThought

SkyThought 是 NovaSky-AI 推出的开源AI模型训练与评估框架,专注于提升大语言模型在数学、编程和科学领域的推理能力。该项目提供完整的数据处理、训练脚本和评估工具链。


相关链接资源


关键功能特性

  • 提供完整的模型训练流程(包括RLHF训练)
  • 支持多种数学/编程基准测试评估
  • 开源模型权重和训练数据
  • 包含测试时扩展框架(Test time scaling)
  • 支持多领域评估(数学、编程、科学等)

二、安装

支持 Python 3.10+ 环境


通过PyPI安装

pip install skythought

从源码安装

# 克隆仓库
git clone https://github.com/NovaSky-AI/SkyThought.git
cd SkyThought

# 创建并激活虚拟环境
uv venv --python 3.10
source .venv/bin/activate

# 以可编辑模式安装
uv pip install -e .

三、快速开始

1、模型评估

使用CLI工具评估模型性能:

skythought evaluate --model NovaSky-AI/Sky-T1-32B-Preview --task aime24

2、支持的数据集

框架支持多种评估基准:

  • 数学:AIME’24、MATH500、GSM8K、AMC’23
  • 编程:LiveCodeBench、APPS、TACO
  • 科学:GPQADiamond、MMLU、ARC-Challenge
  • 综合:OlympiadBench、MinervaMath

完整列表参见评估指南


四、模型性能

1、核心基准测试结果

MetricSky-T1-32B-PreviewQwen-2.5-32B-InstructQwQo1-preview
Math50086.481.492.281.4
AIME202443.316.750.040.0
LiveCodeBench-Easy86.384.690.792.9
LiveCodeBench-Medium56.840.856.354.9
LiveCodeBench-Hard17.99.817.116.3
GPQA-Diamond56.845.552.575.2
OlympiadBench (Math, EN)59.7946.7462.1759.2

2、非推理任务表现

MetricSky-T1-32B-PreviewQwen-2.5-32B-InstructQwQ-32B-PreviewEval Implementation
MMLU (0 shot; no CoT)78.3674.1471.23lm_eval
MMLU (5 shot; no CoT)82.4682.6282.32lm_eval
ARC-C (0 shot; no CoT)49.4949.449.66lm_eval
IFEval75.7978.7442.51lm_eval
LLM-as-a-Judge9.129.198.30fastchat
MGSM (0 shot; direct)3342.319.07lm_eval
MGSM (8-shot; direct)58.461.4758.5lm_eval
BFCL-v353.1858.9217.41BFCL
Arena-Hard74.7966.5152.6Arena-Hard-Auto

五、开源承诺

我们全面开源模型相关资源:

ModelSky-T1-32B-PreviewSTILL-2JourneyQwQo1
Data
Code
Report
Math domain
Coding domain
Model Weights

六、致谢

特别感谢以下机构的计算资源支持:


伊织 xAI 2025-04-23(三)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EAI工程笔记

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值