360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS aibase AIbase基地

83
2025-03-14

近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。



与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。


为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。


此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。

79262
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
年卡|低价出还有书
专升本
¥1800
次卡|沧州 木/电吉他一对一课程转让 线上线下均可
吉他课
¥2600
次卡|Hellokid纯欧美英语外教一对一
欧美英语外教一对一
¥12000
年卡|便宜转让
健身年卡+私教课
¥10000
次卡|低价转让
瑜伽
¥75
年卡|JS舞蹈(珠海井岸店)双项教练班年卡转让
古典舞,JAZZ,K-POP,HIPPOP
¥9000
年卡|注册会计师会计、审计、财管强化阶段课程转让
注册会计师
¥3680
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
73
AI资讯

360智脑团队成功复现Deepseek强化学习效果,发布开源模型Light-R1-14B-DS aibase AIbase基地

近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。



与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。


为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。


此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。

79262
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
年卡|低价出还有书
专升本
¥1800
次卡|沧州 木/电吉他一对一课程转让 线上线下均可
吉他课
¥2600
次卡|Hellokid纯欧美英语外教一对一
欧美英语外教一对一
¥12000
年卡|便宜转让
健身年卡+私教课
¥10000
次卡|低价转让
瑜伽
¥75
年卡|JS舞蹈(珠海井岸店)双项教练班年卡转让
古典舞,JAZZ,K-POP,HIPPOP
¥9000
年卡|注册会计师会计、审计、财管强化阶段课程转让
注册会计师
¥3680
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000