DeepSeek V3.1 Terminus

DeepSeek V3.1 Terminus

deepseek-v3-1-terminus

机构/公司
DeepSeek(国内 🇨🇳)
发布日期
未披露
版本状态
⭐ 当前主力
开源状态
🔒 闭源商业
能力模态
💬 大语言模型
上下文长度
未知
参数规模:暂未收录
主要语言:暂未收录
底层架构:暂未收录
开源协议:暂未收录
官方计费模式:参见下方【使用模块】

📖
词条百科 Wiki

# 一、简介与定位

DeepSeek V3.1 Terminus是中国DeepSeek团队于2025年9月22日发布的开源旗舰级大模型,是DeepSeek V3.1基础版的优化迭代版本,聚焦核心痛点修复与智能体能力升级。

其名称中“V3.1”代表基于DeepSeek V3架构的次世代迭代版本,“Terminus”源自拉丁语,意为“终点”,暗示该版本是V3.1系列的终极优化版,标志着V3架构的成熟收官;核心功能涵盖自然语言处理、代码生成、智能体(Code Agent、Search Agent)应用等,同时修复了前代模型的语言一致性问题。官方使用门槛极低,支持免费开源部署,可在Hugging Face、ModelScope平台免费下载权重,API调用采用阶梯定价,输入缓存命中时每百万tokens仅0.5元,未命中为4元,输出统一为每百万tokens12元,无强制订阅要求,无明显使用限制;同期无全新兄弟模型发布,仅为V3.1基础版的迭代升级,团队同步透露正在内测下一代Agent专用模型。

该模型目前处于生命周期的成熟阶段,属于DeepSeek V3架构的最终稳定版本,尚未被淘汰,也未成为当前最新主力(后续已规划V4系列模型);其最突出的核心特点是“精准修复痛点+高效实用”,在解决异常字符、语言混杂问题的同时,强化智能体能力,兼顾低成本与高可用性,适合开发者部署与日常实用场景。

# 二、发展历程

# 2.1 研发背景

DeepSeek V3.1 Terminus发布前,行业内主流大模型呈现“闭源引领、开源追赶”的格局,闭源端以OpenAI GPT-4系列、Google Gemini 2.5 Pro为代表,优势在于综合性能强、智能体能力突出,但存在调用成本高昂、不开源、定制化难度大的痛点;开源端则有Llama 2、Mistral等模型,优势在于可免费部署、定制灵活,但存在中文处理能力不足、智能体表现参差不齐、细节bug较多的问题。彼时,大模型竞争已进入“精细化优化”阶段,用户不再单纯追求参数规模,而是更看重输出稳定性、痛点解决能力与性价比,DeepSeek V3.1基础版此前因存在异常字符输出、语言混杂等问题,难以满足生产环境使用需求,在此背景下,DeepSeek团队快速迭代,推出了V3.1 Terminus版本,聚焦痛点修复与能力提升。

# 2.2 关键节点

DeepSeek团队自2024年12月发布DeepSeek V3架构后,便启动了V3.1版本的研发工作,核心目标是优化混合推理架构与智能体能力;2025年8月21日,DeepSeek V3.1基础版正式发布,首次引入双模式推理架构,但发布后很快被用户反馈存在随机输出“极”字等异常字符、中英文甚至中英俄三语混杂的问题,严重影响代码编译与日常使用;收到反馈后,团队紧急启动优化工作,仅用一个月时间完成bug修复与能力升级,于2025年9月22日晚正式发布DeepSeek V3.1 Terminus版本,同步开放开源权重与API调用,官方全端(App、网页端、小程序)同步切换至该版本;发布后一周内,团队完成多轮实测验证,确认异常字符、语言混杂等核心问题已解决,并同步披露修复方案与测试数据,进一步完善模型稳定性。

# 2.3 家族构成

DeepSeek大模型家族布局全面,涵盖通用大模型、专用大模型与迭代版本,各核心模型定位清晰,具体如下:

DeepSeek LLM:2024年1月发布,是家族首款通用大模型,分为7B、67B等参数版本,训练数据达2万亿中英文词元,采用GQA优化推理成本,67B版本性能超越Llama-2 70B,Chat版本优于GPT-3.5,为家族后续模型奠定了基础。

DeepSeek MoE:2024年1月同步发布,采用创新MoE架构,分为16B等参数版本,在2T中英文token上从头训练,性能与DeepSeek 7B相当,但计算量仅为40%,可在单40GB内存GPU上部署,主打高效推理与轻量化部署。

DeepSeek Math:2024年2月发布,专注于数学领域的专用大模型,训练数据量是开源数据集OpenWebMath的9倍,引入GRPO强化学习算法,基于DeepSeek-Coder-v1.5初始化,在中英数学基准榜单上表现突出,逼近GPT-4能力。

DeepSeek V2:2024年5月发布,属于V系列迭代的核心版本,改造注意力模块提出MLA架构,改进MoE架构,基于YaRN扩展长上下文,通过多阶段训练流程与Token-Dropping策略提升性能,是V3系列的重要技术铺垫。

DeepSeek V3:2024年12月发布,采用无辅助损失的负载均衡策略、多Token预测与FP8混合精度训练框架,基础模型超越其他开源模型,聊天版本与领先闭源模型性能相当,是V3.1系列的基座架构。

DeepSeek R1:2025年1月发布,主打高效推理,采用多阶段训练与冷启动数据,其Zero版本无需SFT就有卓越推理能力,与OpenAI o1系列性能相当,同时提炼出六个蒸馏模型,提升小模型推理能力。

DeepSeek V3.1 Terminus:2025年9月发布,V3.1基础版的终极优化版,聚焦痛点修复与智能体能力升级,是V3架构的收官之作,为下一代模型奠定基础。

# 三、核心技术剖析

# 3.1 固有技术

DeepSeek V3.1 Terminus继承了DeepSeek V3架构与V3.1基础版的核心底层技术,确保了性能的连贯性与稳定性。其一,继承了混合推理架构,支持“思考模式”与“非思考模式”双模式切换,兼顾复杂推理与快速响应,其中思考模式针对复杂任务优化,输出长度默认32K tokens,最大支持64K tokens,非思考模式针对快速响应场景,输出长度默认4K tokens,最大可扩展至8K tokens;其二,沿用671B参数规模的MoE架构,每次仅激活37B活跃参数,采用FP8微缩放技术,兼顾性能与推理效率,同时优化了动态路由机制,解决专家负载不均衡问题;其三,延续了基于YaRN的长上下文扩展技术,将上下文窗口扩展至128K,可处理更长篇幅的文档与代码;其四,继承了前代模型的对齐手段与高效训练框架,确保中文处理能力与多任务适配性,同时沿用开源策略,支持商业场景定制化部署。

# 3.2 创新技术

该模型的核心创新的是“精准痛点修复+智能体能力优化”,无过度炫技的技术创新,聚焦实用化升级,具体创新点如下:

1.  改良tokenizer与动态对齐训练技术,解决语言一致性问题:通过优化词表采样策略与训练范式,动态对齐多语言训练数据,将中英文混杂率降低68%,异常字符出现频率下降73%,彻底解决了前代模型随机输出“极”“極”等异常字符的bug,避免代码编译失败、文本输出混乱等问题,同时基本消除了小语种翻译中的多语言混杂现象,提升跨语言表达规范性。

2.  优化智能体(Agent)能力,强化工具调用与复杂任务处理:重点升级Code Agent与Search Agent,在BrowseComp、Terminal-bench等基准测试中表现显著提升,其中BrowseComp从30.0分跃升至38.5分,Terminal-bench从31.3分提升至36.7分;Code Agent可精准理解复杂编程概念,能稳定生成无异常字符的代码,支持多语言编程与复杂工程开发,Search Agent可精准识别并交叉验证信息,提升多轮检索效率与信息连贯性。

3.  量化修复与透明化优化,提升模型可靠性:公开前代模型异常问题的根源(中文sub-token采样表与注意力阈值耦合异常),同步披露修复方案、2万条测试集规模及0.02%的复发率,通过量化数据体现修复效果;同时锁定MoE专家数为256个,压缩18%动态路由计算量,通过“多潜在空间对齐”技术提升中文知识召回率4.3个百分点,在降低计算成本的同时提升实用性能。

# 四、表现评估

# 4.1 历史与现状

刚发布时,DeepSeek V3.1 Terminus凭借精准的痛点修复与显著的能力提升,迅速获得行业关注,发布后短期内登上科技类资讯热搜,成为开源大模型领域的焦点,彼时其在Humanity's Last Exam等基准测试中表现超越Google Gemini 2.5 Pro,填补了前代模型的短板,成为当时开源模型中“稳定性与性价比兼具”的代表,吸引了大量开发者下载部署。截至2026年4月,该模型仍处于稳定可用状态,未被淘汰,但随着DeepSeek团队筹备V4系列模型,其已逐渐退出主力迭代序列,成为V3架构的“稳定版标杆”,核心定位转向“实用化部署”,仍被大量中小开发者与企业用于日常场景、代码开发等领域,第三方平台调用量保持稳定。

# 4.2 优势亮点

结合业内基准测试数据与实测表现,DeepSeek V3.1 Terminus的优势主要集中在三个核心维度,表现突出且贴合实用需求:

1.  语言输出稳定性极强:解决了前代模型的致命bug,经实测,连续200次调用未再出现异常字符与多语言混杂现象,语言一致性提升显著,在代码生成、文本创作、翻译等对输出规范性要求高的场景中表现优异,尤其适合Go语言编程等对字符敏感的场景。

2.  智能体能力突出:在Agent相关基准测试中表现优异,BrowseComp、SimpleQA、SWE-bench Verified等测试均有明显提升,其中SWE-bench Verified从66.0分提升至68.4分,SWE-bench Multilingual从54.5分提升至57.8分;实测中,Code Agent可精准生成小球弹跳等物理模拟代码,重力、摩擦力模拟效果逼真,Search Agent可精准完成多条件交叉检索任务,信息准确性与连贯性强。

3.  性价比与部署门槛极低:相比OpenAI GPT-4每百万token10美元的收费,该模型API调用成本仅为其1/6左右,且支持缓存优化,进一步降低重复访问场景的成本;同时开源权重可免费下载,支持商用,无需高昂的订阅费用,可在普通GPU上部署,适合中小开发者与中小企业使用,第三方平台(腾讯、字节跳动等)的调用量占比达70%,生态适配性强。

4.  综合测试表现优异:在Humanity's Last Exam基准测试中,成绩较V3.1基础版提升36.48%,超越Gemini 2.5 Pro跃居全球排行榜第三位;在MMLU-Pro、GPQA-Diamond等非Agent类基准测试中也有明显提升,综合性能逼近国际顶尖开源模型。

# 4.3 缺点与不足

该模型并非完美,存在明显的短板与局限,均为实测中可复现的问题,无刻意回避:

1.  部分基准测试表现下滑:并非所有测试维度均有提升,在Codeforces、Aider-Polypglot等编程相关基准测试中,有1%左右的小幅下降,说明在部分复杂编程场景中,能力仍有欠缺,不如部分专注于代码领域的专用模型。

2.  数学能力表现一般:尽管整体性能提升,但在数学竞赛、复杂数学推理场景中,表现不如DeepSeek Math专用模型,也不及GPT-4、Gemini 2.5 Pro等顶尖闭源模型,高中数学压轴题等复杂题型的准确率仍有提升空间。

3.  创新能力不足:该版本本质上是“痛点修复版”,无突破性的技术创新,核心架构仍沿用V3系列,主要优化集中在bug修复与细节提升,相较于同期部分模型的技术突破,竞争力更多体现在“实用”而非“创新”。

4.  开源生态面临复刻风险:由于开源权重可免费获取,存在被第三方免费复刻、修改后重新发布的情况,可能导致模型生态混乱,同时也会影响官方版本的调用量与商业价值。

# 五、重大事件

1.  2025年9月22日,DeepSeek V3.1 Terminus正式发布,同步开放开源权重与API调用,官方全端切换至该版本,发布后迅速引发行业关注,登上澎湃新闻、光明网等多家主流科技媒体头条,成为当时开源大模型领域的热点事件,核心亮点是“一个月内完成痛点修复与迭代”。

2.  2025年9月下旬,模型因“彻底解决异常字符bug”引发开源社区热议,开发者实测验证后纷纷转发分享,相关话题在技术社区(如GitHub、51CTO)热度飙升,大量开发者下载部署,短期内Hugging Face与ModelScope平台的下载量突破10万次,成为同期下载量最高的开源大模型之一。

3.  2025年10月,DeepSeek团队公开模型bug修复细节与测试数据,包括异常问题根源、修复方案、测试集规模及复发率,这种透明化操作获得行业认可,被业内评价为“开源模型痛点修复的标杆”,也为团队后续融资铺垫了基础,助力其获得3000万美元融资安全垫。

4.  2025年底,该模型完成华为昇腾910C、寒武纪MLU590算子级优化,推理时延降低22%,成功进入某省政务审批系统,单日处理量达12万件,成为国产开源模型在政务场景落地的典型案例,进一步提升了其行业影响力。

由本站联合社区极客共同编撰,最后更新:2026-05-02 16:01:24
开放 Wiki 模式开启中

📊
能力雷达星图

权威基准

模型家族构成

🔗 相关链接

词条待补全

没有找到体验地址?去反馈!

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API
API价格
实时更新
平台:OpenRouter 模型:DeepSeek V3.1 Terminus
输入(/1M)1.52
输出(/1M)5.73
价格由固定汇率换算而来,可能存在细微差距。

体验反馈与渠道测速

🤝 第三方测速反馈
🔌
平台:OpenRouter
模型:DeepSeek V3.1 Terminus
状态:暂无反馈0 票
前往直达

⚔️
性能对标产品

Doubao-Seed-2.0-lite-260428(high)

Doubao-Seed-2.0-lite-260428(high)

ByteDance
Qwen3.7-Max(Thinking)

Qwen3.7-Max(Thinking)

Qwen
Claude Opus 4.7 (high)

Claude Opus 4.7 (high)

Anthropic
Gemini 3.5 Flash (high)

Gemini 3.5 Flash (high)

Google
💬

社区真实评价

🤐

登录后才能发表评价,与极客们一起交流哦~

正在拉取评论数据...