DeepSeek R1

DeepSeek R1🪦 历史版本

deepseek-r1

以十分之一的成本,干翻闭源巨头,开启AI平权时代

机构/公司
DeepSeek(国内 🇨🇳)
发布日期
2025-01-20
版本状态
🪦 历史版本
开源状态
🌍 开源可见
能力模态
💬 大语言模型
上下文长度
128K
参数规模:671B
主要语言:中文
底层架构:MoE
开源协议:MIT许可证
官方计费模式:参见下方【使用模块】

📖
词条百科 Wiki



# 一、简介与定位

中国幻方量化旗下DeepSeek团队于2025年1月20日,正式发布了主打高阶推理能力的开源旗舰大模型DeepSeek-R1,核心定位是解决复杂逻辑推理场景的需求,比肩国际顶尖推理模型。

DeepSeek-R1的名称中,“DeepSeek”为厂商核心标识,“R”是“Reasoning(推理)”的缩写,“1”代表该系列的第一代产品,清晰彰显其核心聚焦推理能力的定位;其核心功能是通过强化学习实现长思维链推理,涵盖数学计算、代码生成、逻辑分析等场景,推理过程包含完整的反思与验证环节,思维链长度可达数万字。官方使用门槛友好,模型权重完全开源,API服务采用阶梯定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,每日00:30-08:30错峰时段调用价格降至25%,无强制订阅要求,暂未明确API免费额度;同期发布的兄弟模型包括其前期实验版DeepSeek-R1-Zero,以及6个基于R1蒸馏的开源小模型,适配不同算力需求。

目前DeepSeek-R1仍处于活跃迭代期,未被淘汰,是DeepSeek团队推理系列的核心主力模型;其最突出的核心特点是无需依赖大量监督微调数据,仅通过强化学习就能实现比肩OpenAI o1的推理性能,且开源可自由部署,兼顾高性能与易用性。

# 二、发展历程

# 2.1 研发背景

DeepSeek-R1发布前,行业内主流大模型呈现“闭源领先、开源追赶”的格局,闭源端以OpenAI的GPT-4o、GPT-o1(主打推理)为标杆,在复杂推理任务中表现突出,但存在不开源、使用成本高、无法自定义部署的痛点;开源端则以Llama系列、Qwen系列为主,虽具备可部署性,但推理能力普遍落后于闭源旗舰模型,尤其在多步数学推理、复杂代码生成等场景中表现不佳。彼时,行业内普遍依赖“监督微调(SFT)”提升模型推理能力,这种方式需要大量标注数据,成本高昂且效率有限。在此背景下,DeepSeek团队依托幻方量化的算力优势,聚焦“无监督微调也能实现高阶推理”的目标,启动了DeepSeek-R1系列模型的研发,试图打破闭源模型在推理领域的垄断,同时解决开源模型推理能力不足的行业痛点。

# 2.2 关键节点

DeepSeek-R1的研发历程围绕“实验验证-优化迭代-正式发布-生态拓展”逐步推进,核心节点清晰可追溯:2024年下半年,DeepSeek团队启动推理模型研发项目,核心方向是探索纯强化学习训练推理模型的可行性,最终推出实验版模型DeepSeek-R1-Zero,验证了无监督微调实现高阶推理的可能性,但也暴露了可读性差、语言混合的问题;2024年11月20日,团队推出DeepSeek-R1-Lite预览版,上线网页端供用户体验,此时模型仍处于迭代阶段,仅支持网页使用,暂不开放API调用;经过两个多月的优化,2025年1月20日,DeepSeek正式发布DeepSeek-R1完整版,同步开源模型权重、公开技术报告,并上线API服务;发布后仅4天,即1月24日,该模型在LMSYS Chatbot Arena榜单中升至全类别第三,迅速获得行业关注;此后,团队持续推进模型适配与迭代,2025年5月完成小版本升级,优化性能的同时保持API接口与使用方式不变,至今仍在持续优化适配场景。

# 2.3 家族构成

DeepSeek-R1隶属于DeepSeek家族,该家族自2024年起逐步形成完整的模型矩阵,涵盖基座模型、推理模型、蒸馏模型等多个类别,核心成员包括:

DeepSeekMoE:2024年1月发布的第一代家族模型,采用混合专家(MoE)架构,最大版本达67B参数,核心定位是降低模型训练与推理成本,确立了DeepSeek家族的MoE架构路线,其细粒度多专家+共享专家的设计,为后续模型奠定了架构基础。

DeepSeek-v2:2024年5月发布的第二代模型,最大版本273B参数,核心创新是多头潜在注意力机制(MLA),可将推理阶段的显卡缓存占用降至原先的5%-13%,大幅提升推理效率,将生成文字的成本控制在每百万token1元,主打高效推理与低成本部署。

DeepSeek-v3:2024年12月发布的第三代基座模型,最大版本671B参数,采用多token预测训练(MTP)、fp8混合精度训练等技术,性能比肩GPT-4o,是DeepSeek-R1的底层基座,为其提供了强大的基础能力支撑。

DeepSeek-R1-Zero:DeepSeek-R1的实验版模型,核心特点是无需监督微调,仅通过纯强化学习训练实现高阶推理,展现出“顿悟时刻”等独特特性,但存在可读性差、语言混合的短板,为后续R1的优化提供了核心实验依据。

DeepSeek-R1蒸馏模型:共6个,基于DeepSeek-R1蒸馏而成,涵盖1.5B、7B、14B、32B等多个参数版本,核心定位是将R1的高阶推理能力迁移到小型模型中,帮助开发者在低算力设备上实现接近R1的推理效果,降低使用门槛。

# 三、核心技术剖析

# 3.1 固有技术

DeepSeek-R1继承了上一代基座模型DeepSeek-v3的核心底层技术,确保了基础性能的稳定性:其一,延续了混合专家(MoE)架构,采用细粒度专家+共享专家的设计,每个输入仅激活部分专家进行处理,在保证模型性能的同时,大幅降低训练与推理的算力成本,这也是DeepSeek家族自MoE系列以来的核心架构优势;其二,沿用了多头潜在注意力机制(MLA),通过低秩键值联合压缩技术,缩小KV缓存大小,提升推理效率,解决了传统Transformer模型在长文本推理中缓存占用过高的问题;其三,继承了DeepSeek-v3的fp8混合精度训练技术与无损负载均衡策略,确保模型在大规模训练过程中稳定收敛,同时降低训练成本。此外,R1也延续了行业常规的强化学习基础框架,为后续创新优化提供了技术底座。

# 3.2 创新技术

DeepSeek-R1的核心创新集中在强化学习训练方式与推理能力优化上,打破了行业依赖监督微调提升推理能力的传统模式,具体创新点如下:

1.  无监督微调冷启动+多阶段训练模式:不同于传统模型“预训练-监督微调-强化学习”的流程,DeepSeek-R1采用“冷启动数据+多阶段训练”的方式,先通过一小组精心挑选的冷启动数据进行少量监督微调,再进入大规模强化学习训练。这种模式既解决了其前身R1-Zero可读性差、语言混合的问题,又保留了纯强化学习带来的强推理能力,让模型在推理准确性与输出连贯性之间实现了平衡,同时减少了对大量标注数据的依赖,降低了训练成本。

2.  组相对策略优化(GRPO):这是R1强化学习训练的核心创新,打破了传统强化学习中“策略模型与批评者模型大小一致”的常规,通过组得分来估计基线,无需单独训练与策略模型规模相当的批评者模型。简单来说,就像多个科研小组共同攻关一个课题,当某个小组找到最优方法时,其他小组直接借鉴,无需重复探索,大幅节省了强化学习的训练成本,同时提升了训练效率。

3.  基于规则的奖励(Rule-based reward):摒弃了行业常用的神经网络奖励系统,采用规则化奖励机制,即通过预设规则给出训练奖惩信号。例如,数学题答案与标准答案对比,代码题答案通过编译器验证,同时加入格式奖惩,要求模型将思考过程与最终答案分开呈现。这种方式不仅实现简单、效率高,还避免了神经网络奖励系统可能出现的“奖励操纵”问题,让模型的推理过程更可控、更精准。

4.  长思维链推理优化:通过强化学习训练,让模型自发学会“反思与验证”,推理过程中的思维链长度可达数万字,能够处理多步复杂推理任务。不同于传统模型“一步输出答案”的模式,R1会完整呈现推理步骤,甚至会自发重新评估优化推理过程,出现类似人类的“顿悟时刻”,在复杂数学、代码任务中表现突出。

# 四、表现评估

# 4.1 历史与现状

刚发布时(2025年1月),DeepSeek-R1凭借“开源+比肩GPT-o1的推理性能”迅速出圈,发布4天就跻身LMSYS Chatbot Arena全类别榜单第三,在风格控制类分类中与OpenAI o1并列第一,同时获得英伟达、微软、亚马逊等国际巨头的关注,快速接入各大云平台,成为当时开源推理模型中的“黑马”,打破了闭源模型在高阶推理领域的垄断,引发行业对“纯强化学习训练推理模型”的广泛讨论。

如今(2026年4月),DeepSeek-R1仍处于活跃状态,虽未推出重大版本更新,但持续进行小版本优化与场景适配,已广泛应用于政务、汽车、教育、创意软件等多个领域,适配多种国产芯片与云平台。不过,随着Llama 3.1、Qwen 4.0等新一代开源模型的发布,其行业排名有所下滑,使用率也从2025年2-4月的7%降至3%,但仍是开源推理模型中表现突出的选手,尤其在国产算力适配与低成本部署方面,仍具备显著优势。

# 4.2 优势亮点

结合LMSYS Chatbot Arena、AMC(美国数学竞赛)、Codeforces(编程竞赛)等权威榜单与评测数据,DeepSeek-R1的优势主要集中在以下3个维度:

1.  推理能力突出:在AMC难度最高的AIME竞赛、Codeforces编程竞赛中,其表现超越GPT-4o等主流模型,在LMSYS Chatbot Arena榜单中曾位列全类别第三,风格控制类与GPT-o1并列第一;能够轻松处理多步数学推理、逻辑分析等复杂任务,推理过程完整且可追溯,比肩国际顶尖推理模型,且开源可部署,区别于闭源的GPT-o1。

2.  训练与部署成本低:采用MoE架构与MLA注意力机制,训练过程仅使用512块英伟达H800芯片,训练成本仅29.4万美元,构建基础大模型总成本约600万美元,远低于同级别闭源模型;推理成本也处于行业低位,API调用价格亲民,且支持错峰低价调用,同时开源多个蒸馏小模型,适配低算力设备,普通开发者与中小企业也能轻松部署使用。

3.  适配性强、生态完善:已完成与英伟达、华为昇腾、海光DCU等多种芯片的适配,可通过微软Azure、亚马逊Bedrock、腾讯云、华为云等主流云平台一键部署,同时接入鸿蒙、OriginOS、Flyme等手机操作系统,以及政务系统、创意软件、智能汽车等多个场景;开源社区活跃,开发者可基于开源权重进行二次优化,进一步拓展应用场景。

# 4.3 缺点与不足

客观来看,DeepSeek-R1仍存在一些明显短板,未达到“完美推理模型”的水准:

1.  语言生成能力薄弱:相较于其突出的推理能力,R1的自然语言生成、情感表达能力较弱,输出内容偏理性、生硬,缺乏文采与情感温度,在文案创作、对话聊天等场景中表现不佳,远不如GPT-4o、Claude 3等模型。

2.  部分场景存在幻觉与误差:在事实性问答、小众领域知识查询中,偶尔会出现信息错误或幻觉现象,尤其是在未经过专门微调的小众行业场景中,准确性不足;同时,在极长文本(超过10万字)处理中,仍会出现上下文遗忘、推理断层的问题。

3.  使用率下滑,竞争力有所减弱:随着新一代开源模型的迭代,DeepSeek-R1的核心优势逐渐被稀释,2025年2-4月使用率腰斩,虽仍保持活跃,但在推理性能、场景适配等方面已被部分新一代模型超越,且缺乏重大技术更新支撑,用户关注度有所下降。

4.  蒸馏模型性能差距明显:其推出的6个蒸馏小模型,虽降低了使用门槛,但性能与完整版R1差距较大,32B、70B版本仅能对标GPT-o1-mini,无法完全复刻完整版的高阶推理能力,难以满足中高端推理场景需求。

# 五、重大事件

1.  2025年1月20日:DeepSeek正式发布DeepSeek-R1,同步开源模型权重与技术报告,打破了国际闭源模型在高阶推理领域的垄断,成为国内首个比肩GPT-o1的开源推理模型,引发行业广泛关注。

2.  2025年1月24日:DeepSeek-R1在LMSYS Chatbot Arena榜单中升至全类别第三,风格控制类与OpenAI o1并列第一,用权威榜单数据证明了其推理能力,快速提升行业认可度。

3.  2025年1月31日:英伟达、微软、亚马逊三大国际巨头同步接入DeepSeek-R1,分别在NIM微服务、Azure AI Foundry、Amazon Bedrock等平台上线该模型,标志着其技术能力获得国际主流厂商认可。

4.  2025年2月:DeepSeek-R1密集接入国内主流云平台与场景,包括华为云、腾讯云、中科曙光等,同时部署至深圳市龙岗区政务系统,成为国内首个在政务信创环境下部署的高阶推理开源模型,推动开源大模型在政务领域的落地。

5.  2025年9月:DeepSeek-R1相关研究论文登上《自然(Nature)》封面,成为全球首个经过同行评审的主流大语言模型,论文披露了模型训练细节,回应了此前的蒸馏质疑,进一步提升了其学术影响力。

6.  2025年10月10日:DeepSeek-R1入选美国《时代》杂志2025年度最佳发明榜单,成为首个入选该榜单的中国开源推理大模型,彰显了其在全球AI领域的影响力。

由本站联合社区极客共同编撰,最后更新:2026-05-03 18:04:08
开放 Wiki 模式开启中

📊
能力雷达星图

权威基准

模型家族构成

🚩 关键节点

- 2024年11月20日
DeepSeek-R1-Lite预览版上线,为正式版研发奠定基础。
- 2025年1月20日
DeepSeek-R1正式发布,同步开放模型权重与API接口,标志着纯强化学习路线在推理大模型领域的重大突破。
- 2025年1月29日
微软宣布Azure云平台接入DeepSeek-R1,支持Copilot功能及PC本地运行,扩大模型应用场景。
- 2025年3月11日
亚马逊Bedrock上线DeepSeek-R1托管服务,这是首个入驻该平台的中国大模型。
- 2025年5月29日
DeepSeek-R1-0528版开源,优化代码推理能力,将上下文长度拓展至128k,性能逼近OpenAI o3。
- 2026年初
DeepSeek官网对模型入口进行整合,将R1系列整合至DeepSeek V3.2 思考版,R1系列转为开源归档状态。

🔗 相关链接

🌟
星盘总结

核心优势

  • 意义重大:国产高性能思考大模型里程碑;
  • 开源:开源参数且允许免费商用,可自行接入项目;
  • 便宜:官方提供API价格极低,第三方更低甚至免费;
  • 国产:正规稳定,使用简单不用折腾,可以长期使用;

局限与短板

  • 幻觉:用户反馈幻觉问题比较突出;
  • 速度慢:推理速度慢,不适合需要急速响应内容;
  • 纯文本:纯文本模型,非多模态,对图片等无能为力;
  • 长文本弱:长文本能力有限,内容过长很容易遗忘,漏掉内容;

🎯 适用场景推荐

简单代码的分析和处理;简单的小项目的完成(一个小游戏,一个脚本);基础数学分析;AI项目的初期调试;等等一切预算有限,用量很大,不愿意折腾,有长期使用需要的项目;

💻
使用与反馈

💰 计费模式与方案

🏛️ 官方直营方案
🖥️ 会员订阅
网页使用
下架
被deepseek V3.2 思考版 代替
🖥️ 会员订阅
APP使用
下架
被deepseek V3.2 思考版 代替
🖥️ 会员订阅
API调用
下架
被deepseek V3.2 思考版 代替
🤝 第三方代理 / 聚合 API
API价格
实时更新
OpenRouter平台
输入(/1M)5.08
输出(/1M)18.13
当前价格依据固定汇率换算,最后更新: 2026-04-19
API价格
实时更新
平台:OpenRouter 模型:R1
输入(/1M)5.07
输出(/1M)18.13
价格由固定汇率换算而来,可能存在细微差距。
API价格
实时更新
平台:SiliconFlow 模型:DeepSeek-R1
输入(/1M)4.00
输出(/1M)16.00
自动同步官方价格

体验反馈与渠道测速

🏛️ 官方渠道体验
🌐
官方网页
已下架
💰 下架
状态:⛔ 停止服务 / API失效
不可用
SiliconFlow 官方
状态:暂无反馈0 票
前往直达
🤝 第三方测速反馈
🌐
OpenRouter
💰 价格未知
状态:暂无反馈0 票
暂无链接
🔌
平台:SiliconFlow
模型:DeepSeek-R1
状态:暂无反馈0 票
前往直达
🔌
平台:OpenRouter
模型:R1
状态:暂无反馈0 票
前往直达

⚔️
性能对标产品

AI

Hy3 preview(high)

Unknown
Qwen3.6-27B(Thinking)

Qwen3.6-27B(Thinking)

Qwen
MiMo V2.5 Pro Base

MiMo V2.5 Pro Base

Xiaomi
MiMo V2.5 Base

MiMo V2.5 Base

Xiaomi
💬

社区真实评价

🤐

登录后才能发表评价,与极客们一起交流哦~

正在拉取评论数据...