天机亘古 Logo
首页
开源商业
自托管
RAG框架
定价
立即体验
AnswerFlarumMemos
关于
文档瞬间
登录 →
天机亘古 Logo
首页 开源商业 自托管 RAG框架 定价 立即体验
AnswerFlarumMemos
关于
文档瞬间
登录
  1. 首页
  2. RAG框架
  3. DeepSeek-R1 介绍 [译]

DeepSeek-R1 介绍 [译]

  • RAG框架
  • 发布于 2025-02-02
  • 39 次阅读
大卫
大卫

原文

DeepSeek-AI 团队推出的 DeepSeek-R1 是一款强化学习驱动的推理模型系列,旨在提升数学、代码和推理能力。DeepSeek-R1 及其前身 DeepSeek-R1-Zero 采用了 大规模强化学习(RL) 训练策略,其中 DeepSeek-R1-Zero 是首个未经监督微调(SFT)直接通过 RL 训练的开源研究,展现了强大的推理能力。为解决 R1-Zero 生成内容的可读性和一致性问题,DeepSeek-R1 在 RL 之前引入了冷启动数据,使其在多个基准测试中表现可媲美 OpenAI-o1。

DeepSeek-AI 已开源 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 训练的 6 个蒸馏模型,其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越 OpenAI-o1-mini,创造了新的 SOTA 记录。


模型概述

后训练 (Post-Training)

  • 强化学习驱动的推理能力:DeepSeek-R1-Zero 直接通过 RL 训练,不依赖 SFT 作为初始步骤,能够自主学习复杂问题的推理过程(如 Chain-of-Thought,CoT),展现自我验证、自我反思、长推理链生成等能力。

  • DeepSeek-R1 训练流程:包括两个 RL 阶段(探索更优推理模式,优化与人类偏好的对齐)和两个 SFT 阶段(提供推理能力和非推理能力的基础)。

  • 影响:首次证明 LLM 的推理能力可以仅通过 RL 训练激发,为未来研究奠定了基础。

蒸馏 (Distillation)

  • 通过蒸馏技术,将大模型的推理模式迁移至小模型,获得比直接在小模型上进行 RL 训练更优的效果。

  • 开源多个基于 Qwen2.5 和 Llama3 训练的 1.5B 至 70B 规模蒸馏模型,在多个基准测试中展现卓越表现。


模型下载

DeepSeek-R1 系列

模型

总参数量

激活参数量

上下文长度

下载链接

DeepSeek-R1-Zero

671B

37B

128K

🤗 HuggingFace

DeepSeek-R1

671B

37B

128K

🤗 HuggingFace

DeepSeek-R1-Zero & DeepSeek-R1 均基于 DeepSeek-V3-Base 训练,详情请参考 DeepSeek-V3 代码库。

DeepSeek-R1-Distill 蒸馏模型

模型

基础模型

下载链接

DeepSeek-R1-Distill-Qwen-1.5B

Qwen2.5-Math-1.5B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-7B

Qwen2.5-Math-7B

🤗 HuggingFace

DeepSeek-R1-Distill-Llama-8B

Llama-3.1-8B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-14B

Qwen2.5-14B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-32B

Qwen2.5-32B

🤗 HuggingFace

DeepSeek-R1-Distill-Llama-70B

Llama-3.3-70B-Instruct

🤗 HuggingFace

蒸馏模型均基于开源模型进行微调,并使用 DeepSeek-R1 生成的数据 训练,需使用 DeepSeek-AI 提供的设置 运行这些模型。


评测结果

DeepSeek-R1 评测表现

在数学、代码、英语和中文任务上,DeepSeek-R1 超越 OpenAI-o1-mini,并在多个基准测试中逼近 OpenAI-o1。

任务类别

基准测试

DeepSeek-R1

OpenAI o1-mini

OpenAI o1-1217

数学

AIME 2024 (Pass@1)

79.8

63.6

79.2

代码

Codeforces (Rating)

2029

1820

2061

英语

MMLU (Pass@1)

90.8

85.2

91.8

中文

C-Eval (EM)

91.8

68.9

-

更多评测详情请参考官方文档。


本地运行

DeepSeek-R1

  • 详细运行指南请参考 DeepSeek-V3 代码库。

  • 注意:目前 Hugging Face 的 Transformers 尚未直接支持 DeepSeek-R1。

DeepSeek-R1-Distill

  • 支持与 Qwen 和 Llama 模型 相同的运行方式。

  • 运行示例(vLLM):

    • vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

  • 运行示例(SGLang):

    • python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2


许可协议 (License)

  • DeepSeek-R1 及其代码库基于 MIT 许可协议开源,允许商业用途、自由修改和派生作品,包括用于蒸馏其他 LLM。

  • 其中,部分 DeepSeek-R1-Distill 模型继承其基础模型的许可协议,如:

    • DeepSeek-R1-Distill-Qwen 系列 源自 Qwen-2.5,原始许可证为 Apache 2.0。

    • DeepSeek-R1-Distill-Llama 系列 源自 Llama3,遵循 Llama3 相关许可协议。


引用方式

如果在研究或论文中使用 DeepSeek-R1,请引用以下论文:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv, 2025)

  • @misc{deepseekai2025deepseekr1incentivizingreasoningcapability,

    • title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},

    • author={DeepSeek-AI et al.},

    • year={2025},

    • eprint={2501.12948},

    • archivePrefix={arXiv},

    • primaryClass={cs.CL},

    • url={https://arxiv.org/abs/2501.12948},

  • }


联系方式

  • 官网聊天体验:chat.deepseek.com

  • OpenAI 兼容 API:platform.deepseek.com

  • 如有问题,可发送邮件至 service@deepseek.com 或提交 GitHub issue。

标签: #LLM 14 #DeepSeek 4
相关文章

开源项目的商业化困境 2025-05-30 12:26

从Redis到Linux的启示录 原作者视频 引言:当理想遭遇现实 想象一下这样的场景:你花费数年心血开发了一个革命性的软件工具,免费分享给全世界使用,结果却眼睁睁地看着科技巨头们利用你的成果赚得盆满钵满,而你自己却只能靠微薄的捐款勉强维持项目运转。这不是虚构的故

多智能体架构的实践之路:从理论到生产的深度解析 2025-07-20 20:55

让我们一起深入探讨现代人工智能领域最激动人心的发展之一:多智能体系统。想象一下,如果我们能让多个AI智能体像专业团队一样协作,每个成员都专注于自己最擅长的任务,这会带来怎样的可能性? 理解多智能体系统的本质价值 要深入理解多智能体架构,我们首先需要明白它解决的核心问题。就像一个复杂的研究项目无法由单

Harvey AI:重新定义法律行业的AI合伙人 2025-07-15 17:11

在人工智能浪潮席卷各行各业的今天,法律行业这个传统且高度专业化的领域也迎来了革命性的变革。Harvey AI作为法律界的AI合伙人,正在以前所未有的方式重塑整个法律服务生态系统。 Harvey AI的核心价值:让法律工作自动化、流程化、结构化 Harvey AI解决的核心问题可以用一句话概括:让律师

命令行AI Agent的回归:从石器时代到智能未来的技术哲学 2025-07-13 17:05

在AI发展的浪潮中,一个看似矛盾的现象正在发生:当我们已经习惯了图形化界面的便利,顶尖科技公司却纷纷将目光投向了那个看似古老的命令行界面。Anthropic推出了Claude Code,Google发布了相应的命令行工具,这些举措乍看之下像是技术的倒退,但实际上却蕴含着对未来通用AI Agent深刻

AI发展的分水岭:从Grok 4看人工智能的质变时刻 2025-07-11 19:34

今天见证了人工智能发展史上一个可能具有里程碑意义的时刻。马斯克的xAI团队发布了Grok 4大模型,这不仅仅是又一次技术迭代,而可能标志着AI从工具向真正智能伙伴转变的关键节点。 Grok 4的双重架构:单体与协作的完美结合 让我们先理解Grok 4的技术架构。xAI这次推出了两个版本:Grok 4

上下文工程:从提示词到系统化思维的范式转变 2025-07-13 11:02

引言:超越提示词工程的新思维 在人工智能快速发展的今天,我们正在经历一场从提示词工程(Prompt Engineering)向上下文工程(Context Engineering)的重要转变。这不仅仅是概念上的升级,更是我们与AI协作方式的根本性变革。 传统的提示词工程专注于如何精心设计单次输入的指令

目录

开源技术商业化实践者 价值增长解决方案提供商

立即体验

  • 商城
  • Answer
  • Flarum
  • Memos

主菜单

  • 首页
  • 开源商业
  • 自托管
  • RAG框架
  • 定价
  • 立即体验
  • 关于

Copyright © 2020-2025 厦门市思明区壳拿廊电子产品店

All Rights Reserved.Powered by 天机亘古

闽ICP备2024072539号.