Doubao Seed 1.8 251228 (Thinking)

Doubao Seed 1.8 251228 (Thinking)

doubao-seed-1-8-251228-thinking

机构/公司
ByteDance(国内 🇨🇳)
发布日期
2026-01-28
版本状态
⭐ 当前主力
开源状态
🔒 闭源商业
能力模态
💬 大语言模型
上下文长度
未知
参数规模:暂未收录
主要语言:暂未收录
底层架构:暂未收录
开源协议:暂未收录
官方计费模式:参见下方【使用模块】

📖
词条百科 Wiki

# 一、简介与定位

中国字节跳动旗下火山引擎于2025年12月18日,在冬季Force原动力大会上发布了旗舰级通用大模型Doubao Seed 1.8 251228 (Thinking),聚焦多模态Agent场景的定向优化,主打高效执行与复杂任务处理能力。

该模型名称可拆解为三部分:Doubao即“豆包”,是字节跳动大模型核心品牌;Seed代表其基于字节跳动自研Seed大模型基座开发;1.8是版本号,251228对应发布日期(2025年12月28日),后缀(Thinking)则凸显其强化的思考、规划与执行能力。核心功能包括多模态理解、工具调用、复杂指令遵循及长上下文处理,官方使用门槛较低,个人用户可在豆包、即梦AI等平台免费体验基础功能,企业用户需通过火山引擎API接入,API无明确免费额度,采用按量后付费模式,同期发布的“兄弟模型”为音视频创作模型Seedance 1.5 pro,主打原生音视频联合生成。

目前该模型处于“非最新主力、仍可正常使用”的生命周期阶段,未被淘汰但已被后续发布的Doubao Seed 2.0 Pro系列迭代,其最突出的核心特点是在兼顾成本优化的同时,强化了多模态Agent能力,可高效适配企业级复杂任务与多场景落地需求。

# 二、发展历程

# 2.1 研发背景

Doubao Seed 1.8 251228 (Thinking) 发布前,全球大模型行业已从“百模大战”进入收敛期,竞争焦点从单纯的参数规模比拼转向“智能密度”与场景落地能力的较量,AI发展正式从“聊天”范式转向“能办事”的智能体时代。当时行业主流大模型分为两大阵营:海外以Claude-Opus、GPT系列为代表,优势在于指令遵循与代码生成能力,但存在国内使用壁垒;国内则以DeepSeek-R1、百度文心一言、智谱AI等为代表,深耕中文场景与开源创新,但在多模态融合与复杂任务执行上仍有短板。与此同时,企业级Agent应用需求爆发,传统大模型在工具调用、长程任务规划上的不足日益凸显,字节跳动基于自身Seed基座的技术积累,结合市场对“高效执行型”大模型的需求,启动了该版本的研发,旨在打造适配国内场景、兼顾性能与成本的旗舰级Agent模型。

# 2.2 关键节点

2025年中期,字节跳动启动Doubao Seed 1.8版本的研发立项,核心目标聚焦多模态能力升级与Agent场景优化,重点解决上一代模型视频理解帧数不足、工具调用不够灵活的问题;同年10月,该模型进入内部内测阶段,邀请数十家企业客户参与试点,收集复杂场景下的使用反馈,优化长上下文管理与成本控制方案;12月中旬,模型完成最终优化,确定发布细节,同步完成与火山引擎AgentKit平台的适配;12月18日,在火山引擎冬季Force原动力大会上正式发布,同步开放个人用户体验通道与企业API接入权限;2026年2月,随着Doubao Seed 2.0 Pro系列发布,该模型调整为“次旗舰”定位,持续提供技术支持与迭代优化。

# 2.3 家族构成

Doubao Seed 1.8 251228 (Thinking) 隶属于字节跳动“豆包大模型”家族,该家族以Seed为核心基座,形成了覆盖不同场景、不同定位的产品矩阵,核心成员包括:

1. 基础基座模型:Doubao Seed Base,作为整个家族的技术根基,采用标准Transformer稠密架构,提供核心的语言理解与生成能力,是所有衍生版本的研发基础,定位为“通用技术底座”,主要面向开发者提供定制化微调服务。

2. 旗舰执行模型:Doubao Seed 1.8 251228 (Thinking),即本文主角,定位为“多模态Agent旗舰模型”,主打多模态理解、工具调用与复杂任务执行,兼顾性能与成本,适配企业级与个人高端需求。

3. 升级旗舰模型:Doubao Seed 2.0 Pro 260215,2026年2月发布,是该模型的迭代版本,在数学推理、智能体规划能力上实现大幅提升,定位为“高端全能Agent模型”,面向高难度复杂任务场景。

4. 场景专项模型:Seedance系列(如同期发布的Seedance 1.5 Pro),隶属于豆包家族生态,定位为“音视频创作专项模型”,专注于音视频联合生成,与Doubao Seed 1.8形成“大脑+手脚”的协同格局,赋能内容创作场景。

# 三、核心技术剖析

# 3.1 固有技术

该模型继承了字节跳动Seed大模型基座的核心技术架构,底层采用标准Transformer稠密架构,确保了基础的语言理解与生成能力的稳定性。同时,延续了上一代模型的常规对齐手段,通过有监督微调(SFT)与人类反馈强化学习(RLHF),实现了模型输出与人类需求的精准匹配,减少无意义输出与幻觉问题。此外,继承了基座模型的上下文管理基础能力,为后续长上下文窗口的升级奠定了技术基础,同时沿用了成熟的多模态融合框架,保障了文本、图片、视频等多类型信息的基础理解能力。

# 3.2 创新技术

Doubao Seed 1.8 251228 (Thinking) 的核心创新的在于针对多模态Agent场景的定向优化,重点突破了上一代模型的能力瓶颈,具体创新点如下:

1. 多模态理解能力升级:大幅提升视觉理解基础能力,将单次视频理解帧数从640帧提升至1280帧,实现低帧率解析超长视频、高帧率精读关键片段的灵活切换。简单来说,就是模型能“完整看完”数小时的长视频,并精准捕捉其中的关键信息,无需人工分割视频,这一创新为在线教育、工业质检等场景提供了核心支撑,比如可自动分析课程视频生成知识点总结,或监控生产线视频捕捉缺陷瞬间。

2. Agent能力强化:重点优化工具调用(Tool Use)、复杂指令遵循与GUI Agent能力,让模型从“被动响应指令”转变为“主动规划执行”。不同于传统模型需要明确的分步指令,该模型可像项目经理一样,自主拆解复杂任务、规划执行路径,适配多步、多分支的企业级Agent场景,比如可自主调用多个工具完成数据查询、分析、生成报告的全流程。

3. 长上下文与成本优化:支持256K长上下文窗口,可处理超长文本、多轮对话等场景,同时通过API传参可灵活清理上下文,避免长程任务中的信息遗忘。此外,通过优化图片转tokens压缩比与思考长度可调节功能,在提升模型效果的同时,有效降低了算力与使用成本,兼顾了性能与性价比。

4. 多维度细节优化:在视频运动理解、复杂空间理解、文档OCR能力上进行针对性提升,解决了上一代模型对动态画面、复杂空间场景理解不精准,以及文档识别效率低的问题,进一步拓宽了模型的应用场景边界。

# 四、表现评估

# 4.1 历史与现状

该模型刚发布时,凭借其多模态Agent能力的突出表现,迅速跻身国内大模型第一梯队,发布当天便伴随火山引擎大会的热度获得广泛关注,成为当时国内Agent场景优化最成熟的模型之一。截至2025年12月,其所属的豆包大模型日均token使用量已突破50万亿,较去年同期增长超过10倍,其中该模型贡献了重要的使用增量。如今,随着2026年2月Doubao Seed 2.0 Pro系列的发布,该模型的“旗舰”地位被取代,退居次旗舰位置,但依旧是字节跳动大模型家族的核心成员,可正常使用,且凭借较高的性价比,仍被大量中小企业与个人用户采用,未出现被淘汰的情况。

# 4.2 优势亮点

结合SuperCLUE 2025年度测评及行业公开数据,该模型的优势亮点主要集中在以下三个维度,表现处于行业上游水平:

1. 多模态理解能力突出:在视觉推理、通用视觉问答、空间理解及视频理解等任务中,获得最佳或接近最佳成绩,其中视频理解能力的提升尤为显著,1280帧的单次理解能力在同期模型中表现亮眼,在BrowseComp通用智能体测评集中表现全球领先。

2. Agent与复杂任务执行能力优秀:在智能体(任务规划)维度,SuperCLUE测评得分为58.15分,虽不及后续的2.0 Pro版本,但在同期模型中表现突出,能够高效完成多步复杂任务的规划、拆解与执行,适配教育、客服、金融、法律等多个企业级场景。

3. 性价比优势明显:相较于海外同类模型及国内高端旗舰模型,该模型的API价格仅为1.10元/百万Tokens,同时通过成本优化设计,进一步降低了企业与个人用户的使用成本,在性能与价格之间实现了较好的平衡,适合大规模落地使用。

# 4.3 缺点与不足

结合测评数据与实际使用反馈,该模型的短板同样较为明显,主要集中在以下几个方面,客观存在且未完全解决:

1. 数学推理与代码生成能力薄弱:根据SuperCLUE测评数据,该模型数学推理得分为68.70分,代码生成得分为40.33分,均处于行业中等水平,相较于海外顶级模型及国内DeepSeek-R1等模型,在复杂数学计算、代码编写与调试方面存在明显差距,难以满足高端编程与数学研究需求。

2. 精确指令遵循能力不足:测评中精确指令遵循得分为32.60分,表现较差,在处理包含多约束条件、复杂逻辑的指令时,容易出现理解偏差、遗漏关键要求的情况,需要用户反复明确指令细节。

3. 幻觉控制仍有提升空间:虽然继承了基座模型的对齐技术,但在处理小众领域、冷门知识时,仍会出现幻觉输出,即生成虚假、不准确的信息,且幻觉控制能力相较于2.0 Pro版本提升有限,在学术、专业咨询等场景中需谨慎使用。

4. 推理效率一般:根据测评数据,该模型平均每题推理时间为205.24秒,在处理复杂任务时,响应速度较慢,相较于轻量化模型,效率优势不明显,难以适配对响应速度要求较高的实时场景。

# 五、重大事件

1. 2025年12月18日,伴随火山引擎冬季Force原动力大会发布,现场超1万人参会,模型发布后凭借多模态Agent能力的创新,引发行业广泛关注,成为当天AI领域的热点话题,进一步提升了豆包大模型的行业影响力,同时推动了国内Agent场景的发展。

2. 2025年12月底,该模型助力豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍,其中超过100家企业客户累计token使用量超过1万亿,印证了该模型在企业级场景的落地价值,也体现了市场对其能力的认可。

3. 2026年3月,该模型被纳入Zion无代码平台的接入列表,推出零代码接入教程,让零基础开发者可通过复制粘贴、点击操作,快速将其能力接入小程序、网站等应用,大幅降低了模型的使用门槛,推动了其在中小开发者群体中的普及。

4. 2026年3月,SuperCLUE发布2025年度测评报告,该模型以58.17分的总分跻身国内大模型第一梯队,其多模态理解与Agent能力获得行业认可,同时测评也明确指出其数学、代码能力的短板,为后续模型迭代提供了明确方向,也为用户选择模型提供了参考依据。

由本站联合社区极客共同编撰,最后更新:2026-04-02 19:39:39
开放 Wiki 模式开启中

📊
能力雷达星图

权威基准

数据采集中

该模型太新啦!百科已抢先收录基础档案,权威雷达图评测数据正在快马加鞭测试中。

模型家族构成

🔗 相关链接

词条待补全

没有找到体验地址?去反馈!

💻
使用与反馈

💰 计费模式与方案

体验反馈与渠道测速

⚔️
性能对标产品

Doubao-Seed-2.0-lite-260428(high)

Doubao-Seed-2.0-lite-260428(high)

ByteDance
Qwen3.7-Max(Thinking)

Qwen3.7-Max(Thinking)

Qwen
Claude Opus 4.7 (high)

Claude Opus 4.7 (high)

Anthropic
Gemini 3.5 Flash (high)

Gemini 3.5 Flash (high)

Google
💬

社区真实评价

🤐

登录后才能发表评价,与极客们一起交流哦~

正在拉取评论数据...