360智脑开源Light
发布时间:2025-03-06 17:19
2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模子,以及全体练习数据、代码。仅需 12 台 H800 上 6 小时即可练习实现,从不长头脑链的 Qwen2.5-32B-Instruct 动身,仅应用 7 万条数学数据练习,失掉 Light-R1-32B,在 AIME24 测试基准中获得 76.6 分、AIME25 获得 64.6 分,在数学评测上开源初次实现从零年夜幅超出 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分跟 54.9 分。一周前,360 智脑结合北年夜开源了 TinyR1-32B-Preview,从 DeepSeek-R1-Distill-Qwen-32B 练习,在数学、迷信跟代码上获得了濒临 DeepSeek-R1 满血版的优良后果。Light-R1-32B 则不依附 DeepSeek-R1-Distill,从不长头脑链的模子动身,在数学上从零复现并超出了 DeepSeek-R1-Distill-Qwen-32B。360 智脑盼望这些任务助力开源社区开展。注:表中为 64 次采样均分,较 16 次平均更稳定;其他开源模型截取开源汇报的结果,若没有则测试 64 次取均分。模子堆栈:https://huggingface.co/qihoo360/Light-R1-32B名目地点:https://github.com/Qihoo360/Light-R1低本钱从零超出,范畴专精DeepSeek-R1 模子宣布以来,只管很多开源任务试图在 72B 或更小的模子上复现长头脑链的 DeepSeek-R1 的机能,但至今还不在 AIME24 等高难度数学比赛中到达濒临 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成就。360 智脑开源的 Light-R1-32B 实现了冲破,从不长头脑链的 Qwen2.5-32B-Instruct 开端练习,它在 AIME24 上获得了 76.6 的高分、在 AIME25 上 64.6 分,均明显超出 DeepSeek-R1-Distill-Qwen-32B。Light-R1-32B 的这套从零练习的计划,按 H800 租用价钱预算,练习本钱仅需 1000 美元阁下。仅应用了 7 万条数学数据,经由过程两阶段的课程进修 SFT 接着 DPO,即可超越 DeepSeek-R1-Distill-Qwen-32B,12 台 H800 呆板的练习时长仅需 6 小时以内(约 4+0.5+0.5 小时)。固然仅应用数学数据练习了模子的长头脑链才能,但在 GPQA Diamond 义务上的优良成果,让咱们信任 Light-R1 的练习计划的泛化性及无效性。比拟于外部现在正在研发的强化进修道路,Light-R1 的课程进修 SFT+DPO 对全部练习流程更轻巧,本钱也更友爱。跟着练习跟推理技巧的一直开展,将来长头脑链模子将愈加遍及,Light-R1 正为低本钱疾速练习一个范畴专精推理模子供给了主要参考。全量开源,简略易用Light-R1 开源首日即开源全量练习跟评测资产:Light-R1-32B 模子:相沿 Qwen2.5-32B Apache 2.0 License;课程进修 SFT+DPO 数据集:两阶段课程进修 SFT 跟 DPO 的全体数据;360-LLaMA-Factory 练习框架:在长头脑链数据 Post-Training(尤其是 DPO)上解锁序列并行;完全评测代码跟成果:基于 DeepScaleR 的评测东西,Light-R1-32B 的原始采样成果也在 Huggingface 模子目次下。Fully open at Day 1,确保可托度跟可复现性。360 智脑也正在摸索强化进修续训,将来机能无望进一步晋升。Light-R1-32B 基最靠谱的滚球平台于 Qwen tokenizer 增添了一般特别 token。应用 Light-R1-32B 模子时,因其长头脑链才能现在仅经由过程数学数据练习,故并不会对全部用户输入输出长头365娱乐官方网站脑链。参照 DeepSeek 的推理倡议,咱们在谈天模板中硬编码了 think token 强迫其思考。倡议应用较新版本的 vLLM 或 SGLang 停止推理。课程 SFT+DPO,稳步晋升数据筹备练习用的数学题来自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(停止 2023 年)等多个开源的数学数据集,并对 AIME、MATH、GPQA 等基准测试的数据泄漏去除了传染的标题。数学题的谜底抓取了 DeepSeek-R1 的成果并经由验证过滤。同时应用 DeepScaleR-1.5B-Preview 停止采样依据答复准确率预算标题的难度分级。