字节跳动终于公开了思考模型Seed-Thinking-v1.5技术细节 - 完美岛英语完美岛AI wmd.cn | 英语学习导航，ai导航，ai技术分享，英语资源分享，英语考试复习材料下载

字节跳动终于公开了思考模型Seed-Thinking-v1.5技术细节

发布者：admin发表于：384天前阅读数：285评论:0

字节跳动的Seed团队即将推出智能推理模型Seed-Thinking-v1.5。该模型在数学、编程、科学推理等专业领域，以及创意写作等通用任务方面均展现出卓越表现。它采用MoE架构，总参数为200B，激活参数为20B ，在推理成本上具备显著优势。

目前，Seed-Thinking-v1.5的技术报告已公开。4月17日，用户可通过火山引擎开放接口对其进行体验。

Seed-Thinking-v1.5性能表现

为展现模型各方面具体表现，选取了业界具有代表性的o3、R1、Gemini 2.5 Pro等模型作为参考：

专业领域：在数学推理方面，AIME 2024得分达到86.7，追平OpenAI o3-mini-high；编程竞赛中，Codeforces pass@8达55.0%，接近Gemini 2.5 Pro；科学推理的GPQA得分77.3%，接近o3-mini-high，整体达到或接近业界第一梯队水平。
通用任务：人类评估表现超过DeepSeek R1 8%，能够满足多场景需求。
成本优势：单位推理成本相较于DeepSeek R1降低了50%，实现了性能与效率的平衡。

针对推理与生成任务的不同需求，团队优化数据处理策略：

可验证数据（例如数学、代码题）：对百万级数据进行三重清洗，依次为人工筛选、模型过滤、多模型验证，最终保留10万道高难度题目。同时设计答案整数化改造、离线沙箱验证等机制，保证模型输出真实推理过程。
非可验证数据（例如创意写作）：以豆包1.5 Pro训练集为基础，剔除低价值样本，运用两两对比奖励法，提升生成质量。
全新评测基准：构建超难数学数据集BeyondAIME，包含100道无答案题干题目，解决了现有测试区分度不足的问题。

团队创新性地提出双轨奖励机制，兼顾不同类型任务：

可验证任务：开发两代验证器，从Seed-Verifier升级到Seed-Thinking-Verifier，验证方式从字符匹配转变为推理步骤逐行对比，训练/测试集准确率超99%，有效杜绝模型“奖励欺骗”。
非可验证任务：引入pairwise对比训练，经过千万次“AB测试”，捕捉人类对于创意、情感等方面的隐性偏好，解决“众口难调”问题。
双轨融合：针对混合场景设计协调机制，让硬指标（对错）与软偏好（优劣）相互补充，支撑全场景训练。

Seed-Thinking-v1.5采用全链路训练方式：

监督精调（SFT）：基于40万高质量实例，其中30万可验证数据与10万非可验证数据，通过人工与模型协同筛选，构建长思考链数据集，确保模型能“像人类一样思考”。
强化学习（RL）：借助三重数据引擎（可验证/通用/混合数据）、算法创新（价值预训练、解耦GAE等）以及在线数据适配技术，解决训练不稳定、长链推理断层等问题，动态调整数据分布，维持最佳训练状态。

为满足20B MoE（总参数200B）的复杂训练需求，团队对底层架构进行优化：

Seed-Thinking-v1.5通过更深入的技术探索，致力于推动推理模型从“专项”向“通用”发展，在效率以及场景覆盖（从数学竞赛到创意写作）方面实现突破。团队即将公开BeyondAIME基准，以促进行业技术迭代，同时会通过火山引擎开放Seed-Thinking-v1.5接口，方便用户体验。

真正的智能，起始于“像人类一样思考”。推理能力的提升，仅仅是LLM迈向智能道路上的一小步。

我们期待，未来的AI不再仅仅是屏幕背后的代码，而是能够停顿、联想，并且主动与人们分享的“思考者”。未来，Seed团队将持续探索智能的上限，不断尝试新的交互方式，让AI以更自然、更能理解人类的方式回应真实需求，在现实世界中落地，成为推动人类社会进步、提升生活体验的源动力。

下载地址：技术报告链接
免责声明：本站所有资源，仅供个人下载学习研究使用，请下载后24小时内删除。如果商业使用，请支持购买正版，如有侵权请联系本站删除！

转载出处：https://mp.weixin.qq.com/s/WJc9b2cB-Io0YNrBQvfYBA