DeepSeek-AI 团队推出的 DeepSeek-R1 是一款强化学习驱动的推理模型系列,旨在提升数学、代码和推理能力。DeepSeek-R1 及其前身 DeepSeek-R1-Zero 采用了 大规模强化学习(RL) 训练策略,其中 DeepSeek-R1-Zero 是首个未经监督微调(SFT)直接通过 RL 训练的开源研究,展现了强大的推理能力。为解决 R1-Zero 生成内容的可读性和一致性问题,DeepSeek-R1 在 RL 之前引入了冷启动数据,使其在多个基准测试中表现可媲美 OpenAI-o1。
DeepSeek-AI 已开源 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 训练的 6 个蒸馏模型,其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越 OpenAI-o1-mini,创造了新的 SOTA 记录。
模型概述
后训练 (Post-Training)
强化学习驱动的推理能力:DeepSeek-R1-Zero 直接通过 RL 训练,不依赖 SFT 作为初始步骤,能够自主学习复杂问题的推理过程(如 Chain-of-Thought,CoT),展现自我验证、自我反思、长推理链生成等能力。
DeepSeek-R1 训练流程:包括两个 RL 阶段(探索更优推理模式,优化与人类偏好的对齐)和两个 SFT 阶段(提供推理能力和非推理能力的基础)。
影响:首次证明 LLM 的推理能力可以仅通过 RL 训练激发,为未来研究奠定了基础。
蒸馏 (Distillation)
通过蒸馏技术,将大模型的推理模式迁移至小模型,获得比直接在小模型上进行 RL 训练更优的效果。
开源多个基于 Qwen2.5 和 Llama3 训练的 1.5B 至 70B 规模蒸馏模型,在多个基准测试中展现卓越表现。
模型下载
DeepSeek-R1 系列
DeepSeek-R1-Zero & DeepSeek-R1 均基于 DeepSeek-V3-Base 训练,详情请参考 DeepSeek-V3 代码库。
DeepSeek-R1-Distill 蒸馏模型
蒸馏模型均基于开源模型进行微调,并使用 DeepSeek-R1 生成的数据 训练,需使用 DeepSeek-AI 提供的设置 运行这些模型。
评测结果
DeepSeek-R1 评测表现
在数学、代码、英语和中文任务上,DeepSeek-R1 超越 OpenAI-o1-mini,并在多个基准测试中逼近 OpenAI-o1。
更多评测详情请参考官方文档。
本地运行
DeepSeek-R1
详细运行指南请参考 DeepSeek-V3 代码库。
注意:目前 Hugging Face 的 Transformers 尚未直接支持 DeepSeek-R1。
DeepSeek-R1-Distill
支持与 Qwen 和 Llama 模型 相同的运行方式。
运行示例(vLLM):
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
运行示例(SGLang):
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
许可协议 (License)
DeepSeek-R1 及其代码库基于 MIT 许可协议开源,允许商业用途、自由修改和派生作品,包括用于蒸馏其他 LLM。
其中,部分 DeepSeek-R1-Distill 模型继承其基础模型的许可协议,如:
DeepSeek-R1-Distill-Qwen 系列 源自 Qwen-2.5,原始许可证为 Apache 2.0。
DeepSeek-R1-Distill-Llama 系列 源自 Llama3,遵循 Llama3 相关许可协议。
引用方式
如果在研究或论文中使用 DeepSeek-R1,请引用以下论文:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv, 2025)
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI et al.},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
联系方式
官网聊天体验:chat.deepseek.com
OpenAI 兼容 API:platform.deepseek.com
如有问题,可发送邮件至 service@deepseek.com 或提交 GitHub issue。