# 一、简介与定位
DeepSeek V3.1 Thinking是中国杭州深度求索(DeepSeek)公司于2025年8月21日正式发布的旗舰级通用大模型,定位为“迈向Agent时代的核心载体”,主打高效混合推理与智能体能力升级。
其名称中“V3.1”代表该模型是DeepSeek V3系列的迭代升级版本,后缀“Thinking”则直接点明其核心特色——内置思考模式,可实现思考与非思考双模式切换;核心功能涵盖多语言处理、代码生成、复杂推理、长文本处理及智能体工具调用等,同时针对国产芯片进行了专项优化。官方使用门槛方面,个人用户可免费使用网页端和App基础功能,API调用需按用量计费,无免费额度,2025年9月6日起调整后,输入缓存命中0.5元/百万tokens、缓存未命中4元/百万tokens,输出12元/百万tokens,取消夜间时段优惠;同期发布的“兄弟模型”为DeepSeek V3.1 Base,该版本开源于Hugging Face,侧重基础基座能力,供开发者二次开发。
目前该模型处于生命周期中的主力活跃阶段,尚未被淘汰,且仍在持续灰度升级,其最突出的核心特点是单模型融合双推理模式,在保证性能的同时大幅降低token消耗,兼顾推理深度与使用成本。
# 二、发展历程
# 2.1 研发背景
DeepSeek V3.1 Thinking发布前,行业内主流大模型呈现“两极分化”态势:海外方面,OpenAI的GPT系列、Anthropic的Claude系列主打深度推理,但存在token消耗过高、成本居高不下的痛点;谷歌Gemini系列推出思考预算机制,侧重B端成本控制,但体验不够灵活。国内方面,阿里Qwen3系列曾尝试混合推理模式,但因性能未达预期被迫停用;DeepSeek自身的V3系列和R1系列,前者缺乏高效推理能力,后者虽推理出色但token消耗大、响应慢。彼时行业核心痛点集中在“推理性能与使用成本难以平衡”,同时Agent时代到来,市场对模型的工具调用、多步骤任务处理能力要求大幅提升,DeepSeek V3.1 Thinking正是在这种“既要高效推理,又要控制成本,还要适配智能体场景”的时代局势下诞生的。
# 2.2 关键节点
DeepSeek在推出V3系列后,便开始布局推理效率优化,2025年上半年启动V3.1版本的研发立项,核心目标是解决R1系列token消耗过高的问题,同时融合双推理模式。2025年8月18日,研发团队率先在Hugging Face开源了V3.1 Base版本,将上下文长度拓展至128K,完成基础基座的公开测试;8月20日晚,DeepSeek官方悄悄上线V3.1正式版本,开启小规模内部内测,收集用户反馈并优化双模式切换体验;8月21日,官方正式对外发布DeepSeek V3.1系列,包括Thinking版本和Base版本,明确其“Agent时代第一步”的定位;9月19日,亚马逊云科技宣布在Amazon Bedrock上新增DeepSeek V3.1开放权重模型,使其实现全球范围内可用;2026年2月11日,该模型开启灰度测试,将上下文窗口提升至1M级别,同步更新知识库至2025年5月。
# 2.3 家族构成
DeepSeek V3.1 Thinking隶属于DeepSeek全系列大模型,该家族涵盖通用、专项、开源等多个细分定位的模型,各核心成员定位如下:
DeepSeek LLM:通用大语言模型,对标GPT-3.5级别,包含7B、67B等不同参数规模,主打高效训练和长上下文支持,中文处理能力优异,部分版本开源,适用于对话、文本生成等基础场景。
DeepSeek Math:专注于数学推理和科学计算的专项模型,仅70亿参数,在MATH、GSM8K等数学评测中表现突出,支持中英文数学问题处理,适用于教育辅助、STEM领域研究等场景。
DeepSeek-Coder:代码生成与理解专项模型,包含1.3B、6.7B、33B等参数规模,覆盖Python、Java等主流编程语言,长上下文支持能力强,代码补全、调试准确率高,是开发者常用工具。
DeepSeek V3系列:高性能多模态大模型,采用MoE架构,支持文本、图像、音频等多模态输入输出,V3.1 Thinking是该系列的迭代升级版本,侧重混合推理与智能体能力。
DeepSeek-MoE:基于混合专家架构的高效开源模型,16B参数,推理时仅激活部分参数,计算成本低,性能接近同级别稠密模型,适用于资源受限环境部署。
DeepSeek R1系列:旗舰推理模型,主打深度思考能力,V3.1 Thinking的推理模式部分继承了该系列的技术优势,但优化了响应速度和token消耗,R1-0528版本是V3.1 Thinking的直接对标对象。
# 三、核心技术剖析
# 3.1 固有技术
DeepSeek V3.1 Thinking继承了DeepSeek家族的核心底层技术,首先是Transformer架构,摒弃传统RNN、CNN结构,采用自注意力机制,可并行处理输入序列,大幅提升长文本处理和复杂语言任务的效率,这也是其能支持128K上下文窗口的基础。其次是混合专家(MoE)架构,采用671B参数规模,推理时仅激活37B参数,兼顾性能与计算效率,解决了大参数模型推理成本过高的问题,这一架构继承自DeepSeek V3和R1系列。最后是常规对齐手段,采用人类反馈强化学习(RLHF)进行对齐优化,同时延续了上一代模型的Post-Training(后训练)流程,确保模型输出符合人类需求,降低幻觉概率。
# 3.2 创新技术
该模型的核心创新集中在混合推理与效率优化上,具体可分为以下3点,均以通俗语言解读:
1. 单模型双推理模式(混合推理架构):这是其最核心的创新,区别于传统需要维护多个专家模型的做法,该模型在单一架构内同时支持“思考模式”和“非思考模式”。简单来说,面对“1+1等于几”这类简单问题时,会自动切换到非思考模式,直接输出答案,快速高效;面对数学解题、代码开发、复杂方案撰写等难题时,会切换到思考模式,像人类一样逐步拆解问题、推演过程,确保逻辑严谨。用户可通过官方App或网页端的“深度思考”按钮手动切换,兼顾效率与精准度,从根源上解决了“简单问题浪费算力、复杂问题响应太慢”的行业痛点。
2. UE8M0 FP8参数精度优化:首次采用针对下一代国产芯片设计的UE8M0 FP8参数精度,FP8即8位浮点数,相比传统的FP32(32位)、FP16(16位)浮点数,能在大幅降低显存占用和计算资源需求的同时,通过动态范围调整维持较高的推理精度。这一优化不仅让模型适配国产芯片,还进一步缩小了国产芯片与NV芯片的效率、成本差距,让模型在国产硬件上的部署成本大幅降低。
3. 思维链压缩与上下文扩展:一方面,通过专项训练实现思维链压缩,在输出token数减少20%-50%的情况下,推理表现与DeepSeek R1-0528持平,大幅降低用户的API使用成本;另一方面,将上下文窗口从V3系列的64K扩展至128K(约96万字,相当于6本《红楼梦》),可一次性处理整张Excel、百页PDF、长篇小说等长文本,彻底解决了大模型“长文本遗忘”的痛点,同时优化了分词器及chat template,提升了文本处理的流畅度和准确性。
# 四、表现评估
# 4.1 历史与现状
刚发布时(2025年8月),DeepSeek V3.1 Thinking凭借单模型双推理模式和成本优势,迅速在国内大模型市场崭露头角,填补了“高效推理+低成本”的市场空白,彼时其行业地位仅次于GPT-4系列、Claude 4系列等海外顶尖模型,在国内模型中排名前列,尤其受到开发者和中小企业的青睐。截至2026年4月,该模型仍处于主力活跃状态,通过灰度测试持续升级,上下文窗口已拓展至1M级别,知识库同步更新,行业地位稳中有升,在代码生成、长文本处理等细分领域已接近海外顶尖水平,但在多模态融合能力上仍有差距,整体处于“国内第一梯队、全球中上水平”的位置。
# 4.2 优势亮点
结合社区测试数据和行业评测,DeepSeek V3.1 Thinking的优势主要集中在三个核心维度,数据支撑扎实,无夸大表述:
1. 代码生成能力突出:在Aider Polyglot多语言编程测试中,取得71.6%的高分,超越了Claude 4 Opus和DeepSeek R1等知名模型;在SVGBench基准测试中,实力仅次于GPT-4.1-mini,远超DeepSeek R1,同时完成一次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一,性价比优势显著,尤其适配中小开发者和企业的代码开发需求。
2. 推理效率与成本平衡极佳:在AIME 2025、GPQA Diamond和LiveCodeBench等基准测试中,其思考模式的表现与DeepSeek R1持平,但token消耗量减少25%-50%;相比上一代V3-0324版本,非思考模式的输出长度大幅减少,却能保持相同性能,API调用成本虽有上调,但综合成本仍低于同级别推理模型。
3. 长文本处理与智能体能力优异:128K上下文窗口可轻松处理超长文档,在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,性能大幅领先DeepSeek R1-0528;通过Post-Training优化,工具使用、任务规划等智能体相关能力大幅提升,是目前国内适配Agent场景的优质模型之一。此外,其多语言支持能力也有明显优化,可处理超过100种语言,尤其提升了亚洲语言和小众语种的处理能力。
# 4.3 缺点与不足
客观来看,该模型仍存在以下明显短板,均为实际使用中可验证的问题,无刻意抹黑:
1. 部分场景存在过度思考现象:正如部分用户反馈,该模型在处理简单问题(如基础计算、简单问答)时,偶尔会出现“过度思考”的情况,类似“1加1等于几”也会进行多余的推演,不仅浪费token,还会降低响应速度,这也是混合推理模式尚未完全优化到位的表现。
2. 数学推理能力不均衡:虽然在AIME测试中表现优异,但在部分复杂数学定理证明、高阶微积分运算场景中,表现不如DeepSeek Math专项模型,甚至略逊于同级别其他通用模型,存在“偏科”现象。
3. 多模态能力缺失:作为通用大模型,其仅支持文本模态,不具备图像、音频等多模态输入输出能力,与GPT-4、Gemini 2.5等海外顶尖模型差距明显,无法适配多模态融合场景(如图文生成、语音交互)。
4. API价格调整引发争议:2025年9月6日的API价格上调,取消夜间优惠,输入缓存未命中价格从2元/百万tokens涨至4元/百万tokens,输出价格从8元/百万tokens涨至12元/百万tokens,导致部分中小开发者和高频用户的使用成本大幅增加,引发社区不少负面反馈。
# 五、重大事件
1. 2025年8月21日正式发布,引发行业关注:DeepSeek官方宣布发布V3.1系列模型,其中Thinking版本的混合推理架构被行业视为“解决推理成本与性能矛盾”的重要尝试,多家科技媒体(界面新闻、新京报等)进行报道,该模型当天登上AI领域热搜,成为当时国内最受关注的大模型之一。
2. 2025年9月6日API价格调整,引发社区争议:官方宣布调整API调用价格并取消夜间优惠,导致部分用户使用成本上涨,在DeepSeek官方公众号、Hugging Face社区引发广泛讨论,有用户表示将转向其他高性价比模型,但也有企业用户认可其性能优势,选择继续使用。
2025年9月19日,登陆亚马逊云科技Bedrock平台:亚马逊云科技宣布在其Bedrock平台新增DeepSeek V3.1开放权重模型,标志着该模型正式走向全球市场,可被全球开发者和企业使用,大幅提升了其国际影响力。
4. 2026年2月11日开启灰度测试,重大功能升级:多位用户反馈该模型在网页及App端开启灰度测试,上下文窗口从128K提升至1M级别,可处理百万token级超长文本,同时知识库更新至2025年5月,非联网状态下可准确输出2025年4月的新闻事件,引发用户对其后续正式升级的期待。
5. 行业内混合推理趋势引领:该模型的单模型双推理模式,与GPT-5、Claude 3.7 Sonnet等模型共同推动混合推理成为大模型领域的新常态,不少国内厂商(如快手、阿里)纷纷跟进探索混合推理技术,DeepSeek V3.1 Thinking成为该趋势的重要引领者之一。
社区真实评价
登录后才能发表评价,与极客们一起交流哦~