DeepSeek R1是什么？

以十分之一的成本，干翻闭源巨头，开启AI平权时代

DeepSeek R1的API价格是多少？

DeepSeek R1的API输入价格为5.0750元/百万Token，输出价格为18.1250元/百万Token。

DeepSeek R1是国产模型吗？

是的，DeepSeek R1是由DeepSeek开发的国产AI大模型，可直接访问使用。

DeepSeek R1 - DeepSeek评测与价格

Name: DeepSeek R1
Rating: 130 (1 reviews)
Author: DeepSeek

# 一、简介与定位

中国幻方量化旗下DeepSeek团队于2025年1月20日，正式发布了主打高阶推理能力的开源旗舰大模型DeepSeek-R1，核心定位是解决复杂逻辑推理场景的需求，比肩国际顶尖推理模型。

DeepSeek-R1的名称中，“DeepSeek”为厂商核心标识，“R”是“Reasoning（推理）”的缩写，“1”代表该系列的第一代产品，清晰彰显其核心聚焦推理能力的定位；其核心功能是通过强化学习实现长思维链推理，涵盖数学计算、代码生成、逻辑分析等场景，推理过程包含完整的反思与验证环节，思维链长度可达数万字。官方使用门槛友好，模型权重完全开源，API服务采用阶梯定价，每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元，每日00:30-08:30错峰时段调用价格降至25%，无强制订阅要求，暂未明确API免费额度；同期发布的兄弟模型包括其前期实验版DeepSeek-R1-Zero，以及6个基于R1蒸馏的开源小模型，适配不同算力需求。

目前DeepSeek-R1仍处于活跃迭代期，未被淘汰，是DeepSeek团队推理系列的核心主力模型；其最突出的核心特点是无需依赖大量监督微调数据，仅通过强化学习就能实现比肩OpenAI o1的推理性能，且开源可自由部署，兼顾高性能与易用性。

# 二、发展历程

# 2.1 研发背景

DeepSeek-R1发布前，行业内主流大模型呈现“闭源领先、开源追赶”的格局，闭源端以OpenAI的GPT-4o、GPT-o1（主打推理）为标杆，在复杂推理任务中表现突出，但存在不开源、使用成本高、无法自定义部署的痛点；开源端则以Llama系列、Qwen系列为主，虽具备可部署性，但推理能力普遍落后于闭源旗舰模型，尤其在多步数学推理、复杂代码生成等场景中表现不佳。彼时，行业内普遍依赖“监督微调（SFT）”提升模型推理能力，这种方式需要大量标注数据，成本高昂且效率有限。在此背景下，DeepSeek团队依托幻方量化的算力优势，聚焦“无监督微调也能实现高阶推理”的目标，启动了DeepSeek-R1系列模型的研发，试图打破闭源模型在推理领域的垄断，同时解决开源模型推理能力不足的行业痛点。

# 2.2 关键节点

DeepSeek-R1的研发历程围绕“实验验证-优化迭代-正式发布-生态拓展”逐步推进，核心节点清晰可追溯：2024年下半年，DeepSeek团队启动推理模型研发项目，核心方向是探索纯强化学习训练推理模型的可行性，最终推出实验版模型DeepSeek-R1-Zero，验证了无监督微调实现高阶推理的可能性，但也暴露了可读性差、语言混合的问题；2024年11月20日，团队推出DeepSeek-R1-Lite预览版，上线网页端供用户体验，此时模型仍处于迭代阶段，仅支持网页使用，暂不开放API调用；经过两个多月的优化，2025年1月20日，DeepSeek正式发布DeepSeek-R1完整版，同步开源模型权重、公开技术报告，并上线API服务；发布后仅4天，即1月24日，该模型在LMSYS Chatbot Arena榜单中升至全类别第三，迅速获得行业关注；此后，团队持续推进模型适配与迭代，2025年5月完成小版本升级，优化性能的同时保持API接口与使用方式不变，至今仍在持续优化适配场景。

# 2.3 家族构成

DeepSeek-R1隶属于DeepSeek家族，该家族自2024年起逐步形成完整的模型矩阵，涵盖基座模型、推理模型、蒸馏模型等多个类别，核心成员包括：

DeepSeekMoE：2024年1月发布的第一代家族模型，采用混合专家（MoE）架构，最大版本达67B参数，核心定位是降低模型训练与推理成本，确立了DeepSeek家族的MoE架构路线，其细粒度多专家+共享专家的设计，为后续模型奠定了架构基础。

DeepSeek-v2：2024年5月发布的第二代模型，最大版本273B参数，核心创新是多头潜在注意力机制（MLA），可将推理阶段的显卡缓存占用降至原先的5%-13%，大幅提升推理效率，将生成文字的成本控制在每百万token1元，主打高效推理与低成本部署。

DeepSeek-v3：2024年12月发布的第三代基座模型，最大版本671B参数，采用多token预测训练（MTP）、fp8混合精度训练等技术，性能比肩GPT-4o，是DeepSeek-R1的底层基座，为其提供了强大的基础能力支撑。

DeepSeek-R1-Zero：DeepSeek-R1的实验版模型，核心特点是无需监督微调，仅通过纯强化学习训练实现高阶推理，展现出“顿悟时刻”等独特特性，但存在可读性差、语言混合的短板，为后续R1的优化提供了核心实验依据。

DeepSeek-R1蒸馏模型：共6个，基于DeepSeek-R1蒸馏而成，涵盖1.5B、7B、14B、32B等多个参数版本，核心定位是将R1的高阶推理能力迁移到小型模型中，帮助开发者在低算力设备上实现接近R1的推理效果，降低使用门槛。

# 三、核心技术剖析

# 3.1 固有技术

DeepSeek-R1继承了上一代基座模型DeepSeek-v3的核心底层技术，确保了基础性能的稳定性：其一，延续了混合专家（MoE）架构，采用细粒度专家+共享专家的设计，每个输入仅激活部分专家进行处理，在保证模型性能的同时，大幅降低训练与推理的算力成本，这也是DeepSeek家族自MoE系列以来的核心架构优势；其二，沿用了多头潜在注意力机制（MLA），通过低秩键值联合压缩技术，缩小KV缓存大小，提升推理效率，解决了传统Transformer模型在长文本推理中缓存占用过高的问题；其三，继承了DeepSeek-v3的fp8混合精度训练技术与无损负载均衡策略，确保模型在大规模训练过程中稳定收敛，同时降低训练成本。此外，R1也延续了行业常规的强化学习基础框架，为后续创新优化提供了技术底座。

# 3.2 创新技术

DeepSeek-R1的核心创新集中在强化学习训练方式与推理能力优化上，打破了行业依赖监督微调提升推理能力的传统模式，具体创新点如下：

1. 无监督微调冷启动+多阶段训练模式：不同于传统模型“预训练-监督微调-强化学习”的流程，DeepSeek-R1采用“冷启动数据+多阶段训练”的方式，先通过一小组精心挑选的冷启动数据进行少量监督微调，再进入大规模强化学习训练。这种模式既解决了其前身R1-Zero可读性差、语言混合的问题，又保留了纯强化学习带来的强推理能力，让模型在推理准确性与输出连贯性之间实现了平衡，同时减少了对大量标注数据的依赖，降低了训练成本。

2. 组相对策略优化（GRPO）：这是R1强化学习训练的核心创新，打破了传统强化学习中“策略模型与批评者模型大小一致”的常规，通过组得分来估计基线，无需单独训练与策略模型规模相当的批评者模型。简单来说，就像多个科研小组共同攻关一个课题，当某个小组找到最优方法时，其他小组直接借鉴，无需重复探索，大幅节省了强化学习的训练成本，同时提升了训练效率。

3. 基于规则的奖励（Rule-based reward）：摒弃了行业常用的神经网络奖励系统，采用规则化奖励机制，即通过预设规则给出训练奖惩信号。例如，数学题答案与标准答案对比，代码题答案通过编译器验证，同时加入格式奖惩，要求模型将思考过程与最终答案分开呈现。这种方式不仅实现简单、效率高，还避免了神经网络奖励系统可能出现的“奖励操纵”问题，让模型的推理过程更可控、更精准。

4. 长思维链推理优化：通过强化学习训练，让模型自发学会“反思与验证”，推理过程中的思维链长度可达数万字，能够处理多步复杂推理任务。不同于传统模型“一步输出答案”的模式，R1会完整呈现推理步骤，甚至会自发重新评估优化推理过程，出现类似人类的“顿悟时刻”，在复杂数学、代码任务中表现突出。

# 四、表现评估

# 4.1 历史与现状

刚发布时（2025年1月），DeepSeek-R1凭借“开源+比肩GPT-o1的推理性能”迅速出圈，发布4天就跻身LMSYS Chatbot Arena全类别榜单第三，在风格控制类分类中与OpenAI o1并列第一，同时获得英伟达、微软、亚马逊等国际巨头的关注，快速接入各大云平台，成为当时开源推理模型中的“黑马”，打破了闭源模型在高阶推理领域的垄断，引发行业对“纯强化学习训练推理模型”的广泛讨论。

如今（2026年4月），DeepSeek-R1仍处于活跃状态，虽未推出重大版本更新，但持续进行小版本优化与场景适配，已广泛应用于政务、汽车、教育、创意软件等多个领域，适配多种国产芯片与云平台。不过，随着Llama 3.1、Qwen 4.0等新一代开源模型的发布，其行业排名有所下滑，使用率也从2025年2-4月的7%降至3%，但仍是开源推理模型中表现突出的选手，尤其在国产算力适配与低成本部署方面，仍具备显著优势。

# 4.2 优势亮点

结合LMSYS Chatbot Arena、AMC（美国数学竞赛）、Codeforces（编程竞赛）等权威榜单与评测数据，DeepSeek-R1的优势主要集中在以下3个维度：

1. 推理能力突出：在AMC难度最高的AIME竞赛、Codeforces编程竞赛中，其表现超越GPT-4o等主流模型，在LMSYS Chatbot Arena榜单中曾位列全类别第三，风格控制类与GPT-o1并列第一；能够轻松处理多步数学推理、逻辑分析等复杂任务，推理过程完整且可追溯，比肩国际顶尖推理模型，且开源可部署，区别于闭源的GPT-o1。

2. 训练与部署成本低：采用MoE架构与MLA注意力机制，训练过程仅使用512块英伟达H800芯片，训练成本仅29.4万美元，构建基础大模型总成本约600万美元，远低于同级别闭源模型；推理成本也处于行业低位，API调用价格亲民，且支持错峰低价调用，同时开源多个蒸馏小模型，适配低算力设备，普通开发者与中小企业也能轻松部署使用。

3. 适配性强、生态完善：已完成与英伟达、华为昇腾、海光DCU等多种芯片的适配，可通过微软Azure、亚马逊Bedrock、腾讯云、华为云等主流云平台一键部署，同时接入鸿蒙、OriginOS、Flyme等手机操作系统，以及政务系统、创意软件、智能汽车等多个场景；开源社区活跃，开发者可基于开源权重进行二次优化，进一步拓展应用场景。

# 4.3 缺点与不足

客观来看，DeepSeek-R1仍存在一些明显短板，未达到“完美推理模型”的水准：

1. 语言生成能力薄弱：相较于其突出的推理能力，R1的自然语言生成、情感表达能力较弱，输出内容偏理性、生硬，缺乏文采与情感温度，在文案创作、对话聊天等场景中表现不佳，远不如GPT-4o、Claude 3等模型。

2. 部分场景存在幻觉与误差：在事实性问答、小众领域知识查询中，偶尔会出现信息错误或幻觉现象，尤其是在未经过专门微调的小众行业场景中，准确性不足；同时，在极长文本（超过10万字）处理中，仍会出现上下文遗忘、推理断层的问题。

3. 使用率下滑，竞争力有所减弱：随着新一代开源模型的迭代，DeepSeek-R1的核心优势逐渐被稀释，2025年2-4月使用率腰斩，虽仍保持活跃，但在推理性能、场景适配等方面已被部分新一代模型超越，且缺乏重大技术更新支撑，用户关注度有所下降。

4. 蒸馏模型性能差距明显：其推出的6个蒸馏小模型，虽降低了使用门槛，但性能与完整版R1差距较大，32B、70B版本仅能对标GPT-o1-mini，无法完全复刻完整版的高阶推理能力，难以满足中高端推理场景需求。

# 五、重大事件

1. 2025年1月20日：DeepSeek正式发布DeepSeek-R1，同步开源模型权重与技术报告，打破了国际闭源模型在高阶推理领域的垄断，成为国内首个比肩GPT-o1的开源推理模型，引发行业广泛关注。

2. 2025年1月24日：DeepSeek-R1在LMSYS Chatbot Arena榜单中升至全类别第三，风格控制类与OpenAI o1并列第一，用权威榜单数据证明了其推理能力，快速提升行业认可度。

3. 2025年1月31日：英伟达、微软、亚马逊三大国际巨头同步接入DeepSeek-R1，分别在NIM微服务、Azure AI Foundry、Amazon Bedrock等平台上线该模型，标志着其技术能力获得国际主流厂商认可。

4. 2025年2月：DeepSeek-R1密集接入国内主流云平台与场景，包括华为云、腾讯云、中科曙光等，同时部署至深圳市龙岗区政务系统，成为国内首个在政务信创环境下部署的高阶推理开源模型，推动开源大模型在政务领域的落地。

5. 2025年9月：DeepSeek-R1相关研究论文登上《自然（Nature）》封面，成为全球首个经过同行评审的主流大语言模型，论文披露了模型训练细节，回应了此前的蒸馏质疑，进一步提升了其学术影响力。

6. 2025年10月10日：DeepSeek-R1入选美国《时代》杂志2025年度最佳发明榜单，成为首个入选该榜单的中国开源推理大模型，彰显了其在全球AI领域的影响力。

DeepSeek R1🪦 历史版本

📖词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

能力雷达星图

模型家族构成

关键节点

相关链接

🌟星盘总结

✅核心优势

❌局限与短板

🎯 适用场景推荐

💻使用与反馈

💰 计费模式与方案

🏛️ 官方直营方案

网页使用

APP使用

API调用

🤝 第三方代理 / 聚合 API

OpenRouter平台

平台：OpenRouter 模型：R1

平台：SiliconFlow 模型：DeepSeek-R1

平台：SiliconFlow 模型：DeepSeek-R1

⚡ 体验反馈与渠道测速

🏛️ 官方渠道体验

🤝 第三方测速反馈

⚔️性能对标产品

Qwen3.6-27B(thinking)

Nemotron 3 Ultra

Llama 2 70b SteerLM Chat

Qwen3 TTS

社区真实评价

📖
词条百科 Wiki

🌟
星盘总结

✅
核心优势

❌
局限与短板

💻
使用与反馈

⚔️
性能对标产品