字节跳动终于公开了思考模型Seed-Thinking-v1.5技术细节
发布者:admin发表于:15天前阅读数:44评论:0

字节跳动的Seed团队即将推出智能推理模型Seed-Thinking-v1.5。该模型在数学、编程、科学推理等专业领域,以及创意写作等通用任务方面均展现出卓越表现。它采用MoE架构,总参数为200B,激活参数为20B ,在推理成本上具备显著优势。

目前,Seed-Thinking-v1.5的技术报告已公开。4月17日,用户可通过火山引擎开放接口对其进行体验。

Seed-Thinking-v1.5性能表现

为展现模型各方面具体表现,选取了业界具有代表性的o3、R1、Gemini 2.5 Pro等模型作为参考:

  1. 专业领域:在数学推理方面,AIME 2024得分达到86.7,追平OpenAI o3-mini-high;编程竞赛中,Codeforces pass@8达55.0%,接近Gemini 2.5 Pro;科学推理的GPQA得分77.3%,接近o3-mini-high,整体达到或接近业界第一梯队水平。
  2. 通用任务:人类评估表现超过DeepSeek R1 8%,能够满足多场景需求。
  3. 成本优势:单位推理成本相较于DeepSeek R1降低了50%,实现了性能与效率的平衡。

Seed-Thinking

从数据、RL到Infra的更深入探索

数据体系:融合可验证与创意性数据

针对推理与生成任务的不同需求,团队优化数据处理策略:

  1. 可验证数据(例如数学、代码题):对百万级数据进行三重清洗,依次为人工筛选、模型过滤、多模型验证,最终保留10万道高难度题目。同时设计答案整数化改造、离线沙箱验证等机制,保证模型输出真实推理过程。
  2. 非可验证数据(例如创意写作):以豆包1.5 Pro训练集为基础,剔除低价值样本,运用两两对比奖励法,提升生成质量。
  3. 全新评测基准:构建超难数学数据集BeyondAIME,包含100道无答案题干题目,解决了现有测试区分度不足的问题。

奖励模型:双轨体系校准训练方向

团队创新性地提出双轨奖励机制,兼顾不同类型任务:

  1. 可验证任务:开发两代验证器,从Seed-Verifier升级到Seed-Thinking-Verifier,验证方式从字符匹配转变为推理步骤逐行对比,训练/测试集准确率超99%,有效杜绝模型“奖励欺骗”。
  2. 非可验证任务:引入pairwise对比训练,经过千万次“AB测试”,捕捉人类对于创意、情感等方面的隐性偏好,解决“众口难调”问题。
  3. 双轨融合:针对混合场景设计协调机制,让硬指标(对错)与软偏好(优劣)相互补充,支撑全场景训练。

训练方法:“监督精调+强化学习”双阶段优化

Seed-Thinking-v1.5采用全链路训练方式:

  1. 监督精调(SFT):基于40万高质量实例,其中30万可验证数据与10万非可验证数据,通过人工与模型协同筛选,构建长思考链数据集,确保模型能“像人类一样思考”。
  2. 强化学习(RL):借助三重数据引擎(可验证/通用/混合数据)、算法创新(价值预训练、解耦GAE等)以及在线数据适配技术,解决训练不稳定、长链推理断层等问题,动态调整数据分布,维持最佳训练状态。

训练框架:支撑20B MoE的底层架构

为满足20B MoE(总参数200B)的复杂训练需求,团队对底层架构进行优化:

  1. HybridFlow编程模型:支持算法快速探索以及分布式并行运行。
  2. 流式推理系统(SRS):利用“流式推理”技术解耦模型演进与异步推理,将训练速度提升3倍,在万亿参数下稳定性达95%。
  3. 三层并行架构:结合张量/专家/序列并行,动态均衡负载,基于KARP算法优化GPU算力利用率。

Seed-Thinking-v1.5通过更深入的技术探索,致力于推动推理模型从“专项”向“通用”发展,在效率以及场景覆盖(从数学竞赛到创意写作)方面实现突破。团队即将公开BeyondAIME基准,以促进行业技术迭代,同时会通过火山引擎开放Seed-Thinking-v1.5接口,方便用户体验。

最后

真正的智能,起始于“像人类一样思考”。推理能力的提升,仅仅是LLM迈向智能道路上的一小步。

我们期待,未来的AI不再仅仅是屏幕背后的代码,而是能够停顿、联想,并且主动与人们分享的“思考者”。未来,Seed团队将持续探索智能的上限,不断尝试新的交互方式,让AI以更自然、更能理解人类的方式回应真实需求,在现实世界中落地,成为推动人类社会进步、提升生活体验的源动力。

下载地址:技术报告链接
免责声明:本站所有资源,仅供个人下载学习研究使用,请下载后24小时内删除。如果商业使用,请支持购买正版,如有侵权请联系本站删除!
转载出处:https://mp.weixin.qq.com/s/WJc9b2cB-Io0YNrBQvfYBA