DeepSeek-R1 介绍 [译]

原文

DeepSeek-AI 团队推出的 DeepSeek-R1 是一款强化学习驱动的推理模型系列，旨在提升数学、代码和推理能力。DeepSeek-R1 及其前身 DeepSeek-R1-Zero 采用了 大规模强化学习（RL） 训练策略，其中 DeepSeek-R1-Zero 是首个未经监督微调（SFT）直接通过 RL 训练的开源研究，展现了强大的推理能力。为解决 R1-Zero 生成内容的可读性和一致性问题，DeepSeek-R1 在 RL 之前引入了冷启动数据，使其在多个基准测试中表现可媲美 OpenAI-o1。

DeepSeek-AI 已开源 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 训练的 6 个蒸馏模型，其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越 OpenAI-o1-mini，创造了新的 SOTA 记录。

模型概述

后训练 (Post-Training)

强化学习驱动的推理能力：DeepSeek-R1-Zero 直接通过 RL 训练，不依赖 SFT 作为初始步骤，能够自主学习复杂问题的推理过程（如 Chain-of-Thought，CoT），展现自我验证、自我反思、长推理链生成等能力。
DeepSeek-R1 训练流程：包括两个 RL 阶段（探索更优推理模式，优化与人类偏好的对齐）和两个 SFT 阶段（提供推理能力和非推理能力的基础）。
影响：首次证明 LLM 的推理能力可以仅通过 RL 训练激发，为未来研究奠定了基础。

蒸馏 (Distillation)

通过蒸馏技术，将大模型的推理模式迁移至小模型，获得比直接在小模型上进行 RL 训练更优的效果。
开源多个基于 Qwen2.5 和 Llama3 训练的 1.5B 至 70B 规模蒸馏模型，在多个基准测试中展现卓越表现。

模型下载

DeepSeek-R1 系列

模型	总参数量	激活参数量	上下文长度	下载链接
DeepSeek-R1-Zero	671B	37B	128K	🤗 HuggingFace
DeepSeek-R1	671B	37B	128K	🤗 HuggingFace

DeepSeek-R1-Zero & DeepSeek-R1 均基于 DeepSeek-V3-Base 训练，详情请参考 DeepSeek-V3 代码库。

DeepSeek-R1-Distill 蒸馏模型

模型	基础模型	下载链接
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	🤗 HuggingFace

蒸馏模型均基于开源模型进行微调，并使用 DeepSeek-R1 生成的数据 训练，需使用 DeepSeek-AI 提供的设置 运行这些模型。

评测结果

DeepSeek-R1 评测表现

在数学、代码、英语和中文任务上，DeepSeek-R1 超越 OpenAI-o1-mini，并在多个基准测试中逼近 OpenAI-o1。

任务类别	基准测试	DeepSeek-R1	OpenAI o1-mini	OpenAI o1-1217
数学	AIME 2024 (Pass@1)	79.8	63.6	79.2
代码	Codeforces (Rating)	2029	1820	2061
英语	MMLU (Pass@1)	90.8	85.2	91.8
中文	C-Eval (EM)	91.8	68.9	-

更多评测详情请参考官方文档。

本地运行

DeepSeek-R1

详细运行指南请参考 DeepSeek-V3 代码库。
注意：目前 Hugging Face 的 Transformers 尚未直接支持 DeepSeek-R1。

DeepSeek-R1-Distill

支持与 Qwen 和 Llama 模型 相同的运行方式。
运行示例（vLLM）：
- vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
运行示例（SGLang）：
- python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

许可协议 (License)

DeepSeek-R1 及其代码库基于 MIT 许可协议开源，允许商业用途、自由修改和派生作品，包括用于蒸馏其他 LLM。
其中，部分 DeepSeek-R1-Distill 模型继承其基础模型的许可协议，如：
- DeepSeek-R1-Distill-Qwen 系列 源自 Qwen-2.5，原始许可证为 Apache 2.0。
- DeepSeek-R1-Distill-Llama 系列 源自 Llama3，遵循 Llama3 相关许可协议。

引用方式

如果在研究或论文中使用 DeepSeek-R1，请引用以下论文：
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv, 2025)

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
- title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
- author={DeepSeek-AI et al.},
- year={2025},
- eprint={2501.12948},
- archivePrefix={arXiv},
- primaryClass={cs.CL},
- url={https://arxiv.org/abs/2501.12948},
}

联系方式

官网聊天体验：chat.deepseek.com
OpenAI 兼容 API：platform.deepseek.com
如有问题，可发送邮件至 service@deepseek.com 或提交 GitHub issue。

DeepSeek-R1 介绍 [译]

模型概述

后训练 (Post-Training)

蒸馏 (Distillation)

模型下载

DeepSeek-R1 系列

DeepSeek-R1-Distill 蒸馏模型

评测结果

DeepSeek-R1 评测表现

本地运行

DeepSeek-R1

DeepSeek-R1-Distill

许可协议 (License)

引用方式

联系方式

开源项目的商业化困境 2025-05-30 12:26

Claude Code：智能编码最佳实践 2025-07-22 18:07

面向 AI 代理的上下文工程：构建 Manus 的经验教训 2025-07-22 10:32

多智能体架构的实践之路：从理论到生产的深度解析 2025-07-20 20:55

Harvey AI：重新定义法律行业的AI合伙人 2025-07-15 17:11

命令行AI Agent的回归：从石器时代到智能未来的技术哲学 2025-07-13 17:05

目录

DeepSeek-R1 介绍 [译]

模型概述

后训练 (Post-Training)

蒸馏 (Distillation)

模型下载

DeepSeek-R1 系列

DeepSeek-R1-Distill 蒸馏模型

评测结果

DeepSeek-R1 评测表现

本地运行

DeepSeek-R1

DeepSeek-R1-Distill

许可协议 (License)

引用方式

联系方式

开源项目的商业化困境 2025-05-30 12:26

Claude Code：智能编码最佳实践 2025-07-22 18:07

面向 AI 代理的上下文工程：构建 Manus 的经验教训 2025-07-22 10:32

多智能体架构的实践之路：从理论到生产的深度解析 2025-07-20 20:55

Harvey AI：重新定义法律行业的AI合伙人 2025-07-15 17:11

命令行AI Agent的回归：从石器时代到智能未来的技术哲学 2025-07-13 17:05

目录

面向 AI 代理的上下文工程：构建 Manus 的经验教训 2025-07-22 10:32