天机亘古 Logo
首页
开源商业
自托管
RAG框架
定价
立即体验
AnswerFlarumMemos
关于
文档瞬间
登录 →
天机亘古 Logo
首页 开源商业 自托管 RAG框架 定价 立即体验
AnswerFlarumMemos
关于
文档瞬间
登录
  1. 首页
  2. RAG框架
  3. DeepSeek-R1 介绍 [译]

DeepSeek-R1 介绍 [译]

  • RAG框架
  • 发布于 2025-02-02
  • 35 次阅读
大卫
大卫

原文

DeepSeek-AI 团队推出的 DeepSeek-R1 是一款强化学习驱动的推理模型系列,旨在提升数学、代码和推理能力。DeepSeek-R1 及其前身 DeepSeek-R1-Zero 采用了 大规模强化学习(RL) 训练策略,其中 DeepSeek-R1-Zero 是首个未经监督微调(SFT)直接通过 RL 训练的开源研究,展现了强大的推理能力。为解决 R1-Zero 生成内容的可读性和一致性问题,DeepSeek-R1 在 RL 之前引入了冷启动数据,使其在多个基准测试中表现可媲美 OpenAI-o1。

DeepSeek-AI 已开源 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 训练的 6 个蒸馏模型,其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越 OpenAI-o1-mini,创造了新的 SOTA 记录。


模型概述

后训练 (Post-Training)

  • 强化学习驱动的推理能力:DeepSeek-R1-Zero 直接通过 RL 训练,不依赖 SFT 作为初始步骤,能够自主学习复杂问题的推理过程(如 Chain-of-Thought,CoT),展现自我验证、自我反思、长推理链生成等能力。

  • DeepSeek-R1 训练流程:包括两个 RL 阶段(探索更优推理模式,优化与人类偏好的对齐)和两个 SFT 阶段(提供推理能力和非推理能力的基础)。

  • 影响:首次证明 LLM 的推理能力可以仅通过 RL 训练激发,为未来研究奠定了基础。

蒸馏 (Distillation)

  • 通过蒸馏技术,将大模型的推理模式迁移至小模型,获得比直接在小模型上进行 RL 训练更优的效果。

  • 开源多个基于 Qwen2.5 和 Llama3 训练的 1.5B 至 70B 规模蒸馏模型,在多个基准测试中展现卓越表现。


模型下载

DeepSeek-R1 系列

模型

总参数量

激活参数量

上下文长度

下载链接

DeepSeek-R1-Zero

671B

37B

128K

🤗 HuggingFace

DeepSeek-R1

671B

37B

128K

🤗 HuggingFace

DeepSeek-R1-Zero & DeepSeek-R1 均基于 DeepSeek-V3-Base 训练,详情请参考 DeepSeek-V3 代码库。

DeepSeek-R1-Distill 蒸馏模型

模型

基础模型

下载链接

DeepSeek-R1-Distill-Qwen-1.5B

Qwen2.5-Math-1.5B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-7B

Qwen2.5-Math-7B

🤗 HuggingFace

DeepSeek-R1-Distill-Llama-8B

Llama-3.1-8B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-14B

Qwen2.5-14B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-32B

Qwen2.5-32B

🤗 HuggingFace

DeepSeek-R1-Distill-Llama-70B

Llama-3.3-70B-Instruct

🤗 HuggingFace

蒸馏模型均基于开源模型进行微调,并使用 DeepSeek-R1 生成的数据 训练,需使用 DeepSeek-AI 提供的设置 运行这些模型。


评测结果

DeepSeek-R1 评测表现

在数学、代码、英语和中文任务上,DeepSeek-R1 超越 OpenAI-o1-mini,并在多个基准测试中逼近 OpenAI-o1。

任务类别

基准测试

DeepSeek-R1

OpenAI o1-mini

OpenAI o1-1217

数学

AIME 2024 (Pass@1)

79.8

63.6

79.2

代码

Codeforces (Rating)

2029

1820

2061

英语

MMLU (Pass@1)

90.8

85.2

91.8

中文

C-Eval (EM)

91.8

68.9

-

更多评测详情请参考官方文档。


本地运行

DeepSeek-R1

  • 详细运行指南请参考 DeepSeek-V3 代码库。

  • 注意:目前 Hugging Face 的 Transformers 尚未直接支持 DeepSeek-R1。

DeepSeek-R1-Distill

  • 支持与 Qwen 和 Llama 模型 相同的运行方式。

  • 运行示例(vLLM):

    • vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

  • 运行示例(SGLang):

    • python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2


许可协议 (License)

  • DeepSeek-R1 及其代码库基于 MIT 许可协议开源,允许商业用途、自由修改和派生作品,包括用于蒸馏其他 LLM。

  • 其中,部分 DeepSeek-R1-Distill 模型继承其基础模型的许可协议,如:

    • DeepSeek-R1-Distill-Qwen 系列 源自 Qwen-2.5,原始许可证为 Apache 2.0。

    • DeepSeek-R1-Distill-Llama 系列 源自 Llama3,遵循 Llama3 相关许可协议。


引用方式

如果在研究或论文中使用 DeepSeek-R1,请引用以下论文:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv, 2025)

  • @misc{deepseekai2025deepseekr1incentivizingreasoningcapability,

    • title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},

    • author={DeepSeek-AI et al.},

    • year={2025},

    • eprint={2501.12948},

    • archivePrefix={arXiv},

    • primaryClass={cs.CL},

    • url={https://arxiv.org/abs/2501.12948},

  • }


联系方式

  • 官网聊天体验:chat.deepseek.com

  • OpenAI 兼容 API:platform.deepseek.com

  • 如有问题,可发送邮件至 service@deepseek.com 或提交 GitHub issue。

标签: #LLM 16 #DeepSeek 4
相关文章

开源项目的商业化困境 2025-05-30 12:26

从Redis到Linux的启示录 原作者视频 引言:当理想遭遇现实 想象一下这样的场景:你花费数年心血开发了一个革命性的软件工具,免费分享给全世界使用,结果却眼睁睁地看着科技巨头们利用你的成果赚得盆满钵满,而你自己却只能靠微薄的捐款勉强维持项目运转。这不是虚构的故

Claude Code:智能编码最佳实践 2025-07-22 18:07

以下是《Claude Code:智能编码最佳实践》一文的中文完整翻译,所有内容均基于 Anthropic 官方文章 (Anthropic): 发布时间:2025 年 4 月 18 日 (Anthropic) Claude Code 是一款命令行工具,用于“agentic coding”(智能体式编码

面向 AI 代理的上下文工程:构建 Manus 的经验教训 2025-07-22 10:32

以下内容为 《Context Engineering for AI Agents: Lessons from Building Manus》 一文的完整中文翻译,标题、小节标题与原文保持一致,段落顺序、要点与举例均忠实呈现,仅对个别行文做了符合中文语境的微调。源文发表于 2025 年 7 月 18 

多智能体架构的实践之路:从理论到生产的深度解析 2025-07-20 20:55

让我们一起深入探讨现代人工智能领域最激动人心的发展之一:多智能体系统。想象一下,如果我们能让多个AI智能体像专业团队一样协作,每个成员都专注于自己最擅长的任务,这会带来怎样的可能性? 理解多智能体系统的本质价值 要深入理解多智能体架构,我们首先需要明白它解决的核心问题。就像一个复杂的研究项目无法由单

Harvey AI:重新定义法律行业的AI合伙人 2025-07-15 17:11

在人工智能浪潮席卷各行各业的今天,法律行业这个传统且高度专业化的领域也迎来了革命性的变革。Harvey AI作为法律界的AI合伙人,正在以前所未有的方式重塑整个法律服务生态系统。 Harvey AI的核心价值:让法律工作自动化、流程化、结构化 Harvey AI解决的核心问题可以用一句话概括:让律师

命令行AI Agent的回归:从石器时代到智能未来的技术哲学 2025-07-13 17:05

在AI发展的浪潮中,一个看似矛盾的现象正在发生:当我们已经习惯了图形化界面的便利,顶尖科技公司却纷纷将目光投向了那个看似古老的命令行界面。Anthropic推出了Claude Code,Google发布了相应的命令行工具,这些举措乍看之下像是技术的倒退,但实际上却蕴含着对未来通用AI Agent深刻

目录

开源技术商业化实践者 价值增长解决方案提供商

立即体验

  • 商城
  • Answer
  • Flarum
  • Memos

主菜单

  • 首页
  • 开源商业
  • 自托管
  • RAG框架
  • 定价
  • 立即体验
  • 关于

Copyright © 2020-2025 厦门市思明区壳拿廊电子产品店

All Rights Reserved.Powered by 天机亘古

闽ICP备2024072539号.