天机亘古 Logo
首页
开源商业
自托管
RAG框架
定价
立即体验
AnswerFlarumMemos
关于
文档瞬间
登录 →
天机亘古 Logo
首页 开源商业 自托管 RAG框架 定价 立即体验
AnswerFlarumMemos
关于
文档瞬间
登录
  1. 首页
  2. RAG框架
  3. DeepSeek-R1 介绍 [译]

DeepSeek-R1 介绍 [译]

  • RAG框架
  • 发布于 2025-02-02
  • 34 次阅读
大卫
大卫

原文

DeepSeek-AI 团队推出的 DeepSeek-R1 是一款强化学习驱动的推理模型系列,旨在提升数学、代码和推理能力。DeepSeek-R1 及其前身 DeepSeek-R1-Zero 采用了 大规模强化学习(RL) 训练策略,其中 DeepSeek-R1-Zero 是首个未经监督微调(SFT)直接通过 RL 训练的开源研究,展现了强大的推理能力。为解决 R1-Zero 生成内容的可读性和一致性问题,DeepSeek-R1 在 RL 之前引入了冷启动数据,使其在多个基准测试中表现可媲美 OpenAI-o1。

DeepSeek-AI 已开源 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 训练的 6 个蒸馏模型,其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越 OpenAI-o1-mini,创造了新的 SOTA 记录。


模型概述

后训练 (Post-Training)

  • 强化学习驱动的推理能力:DeepSeek-R1-Zero 直接通过 RL 训练,不依赖 SFT 作为初始步骤,能够自主学习复杂问题的推理过程(如 Chain-of-Thought,CoT),展现自我验证、自我反思、长推理链生成等能力。

  • DeepSeek-R1 训练流程:包括两个 RL 阶段(探索更优推理模式,优化与人类偏好的对齐)和两个 SFT 阶段(提供推理能力和非推理能力的基础)。

  • 影响:首次证明 LLM 的推理能力可以仅通过 RL 训练激发,为未来研究奠定了基础。

蒸馏 (Distillation)

  • 通过蒸馏技术,将大模型的推理模式迁移至小模型,获得比直接在小模型上进行 RL 训练更优的效果。

  • 开源多个基于 Qwen2.5 和 Llama3 训练的 1.5B 至 70B 规模蒸馏模型,在多个基准测试中展现卓越表现。


模型下载

DeepSeek-R1 系列

模型

总参数量

激活参数量

上下文长度

下载链接

DeepSeek-R1-Zero

671B

37B

128K

🤗 HuggingFace

DeepSeek-R1

671B

37B

128K

🤗 HuggingFace

DeepSeek-R1-Zero & DeepSeek-R1 均基于 DeepSeek-V3-Base 训练,详情请参考 DeepSeek-V3 代码库。

DeepSeek-R1-Distill 蒸馏模型

模型

基础模型

下载链接

DeepSeek-R1-Distill-Qwen-1.5B

Qwen2.5-Math-1.5B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-7B

Qwen2.5-Math-7B

🤗 HuggingFace

DeepSeek-R1-Distill-Llama-8B

Llama-3.1-8B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-14B

Qwen2.5-14B

🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-32B

Qwen2.5-32B

🤗 HuggingFace

DeepSeek-R1-Distill-Llama-70B

Llama-3.3-70B-Instruct

🤗 HuggingFace

蒸馏模型均基于开源模型进行微调,并使用 DeepSeek-R1 生成的数据 训练,需使用 DeepSeek-AI 提供的设置 运行这些模型。


评测结果

DeepSeek-R1 评测表现

在数学、代码、英语和中文任务上,DeepSeek-R1 超越 OpenAI-o1-mini,并在多个基准测试中逼近 OpenAI-o1。

任务类别

基准测试

DeepSeek-R1

OpenAI o1-mini

OpenAI o1-1217

数学

AIME 2024 (Pass@1)

79.8

63.6

79.2

代码

Codeforces (Rating)

2029

1820

2061

英语

MMLU (Pass@1)

90.8

85.2

91.8

中文

C-Eval (EM)

91.8

68.9

-

更多评测详情请参考官方文档。


本地运行

DeepSeek-R1

  • 详细运行指南请参考 DeepSeek-V3 代码库。

  • 注意:目前 Hugging Face 的 Transformers 尚未直接支持 DeepSeek-R1。

DeepSeek-R1-Distill

  • 支持与 Qwen 和 Llama 模型 相同的运行方式。

  • 运行示例(vLLM):

    • vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

  • 运行示例(SGLang):

    • python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2


许可协议 (License)

  • DeepSeek-R1 及其代码库基于 MIT 许可协议开源,允许商业用途、自由修改和派生作品,包括用于蒸馏其他 LLM。

  • 其中,部分 DeepSeek-R1-Distill 模型继承其基础模型的许可协议,如:

    • DeepSeek-R1-Distill-Qwen 系列 源自 Qwen-2.5,原始许可证为 Apache 2.0。

    • DeepSeek-R1-Distill-Llama 系列 源自 Llama3,遵循 Llama3 相关许可协议。


引用方式

如果在研究或论文中使用 DeepSeek-R1,请引用以下论文:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arXiv, 2025)

  • @misc{deepseekai2025deepseekr1incentivizingreasoningcapability,

    • title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},

    • author={DeepSeek-AI et al.},

    • year={2025},

    • eprint={2501.12948},

    • archivePrefix={arXiv},

    • primaryClass={cs.CL},

    • url={https://arxiv.org/abs/2501.12948},

  • }


联系方式

  • 官网聊天体验:chat.deepseek.com

  • OpenAI 兼容 API:platform.deepseek.com

  • 如有问题,可发送邮件至 service@deepseek.com 或提交 GitHub issue。

标签: #LLM 10 #DeepSeek 4
相关文章

开源项目的商业化困境 2025-05-30 12:26

从Redis到Linux的启示录 原作者视频 引言:当理想遭遇现实 想象一下这样的场景:你花费数年心血开发了一个革命性的软件工具,免费分享给全世界使用,结果却眼睁睁地看着科技巨头们利用你的成果赚得盆满钵满,而你自己却只能靠微薄的捐款勉强维持项目运转。这不是虚构的故

家长必读:如何建立孩子的学习数据库,在AI时代抢占教育先机 2025-06-15 06:34

在这个AI技术飞速发展的时代,我们正站在教育变革的关键节点上。今天要和大家分享一个既实用又具有前瞻性的教育理念:通过系统性地记录孩子的学习轨迹,为未来的个性化教育奠定基础。 为什么要开始建立孩子的学习档案 想象一下这样的场景:半年后,当你发现孩子的作文总是写不好时,你向AI寻求帮助。AI反问你:"孩

MCP引领Agent互联网新时代:中国开发者的机遇与挑战 2025-06-15 06:28

引言:新协议的诞生意味着什么? 当我们回顾互联网发展史时,HTTP协议的出现无疑是一个里程碑式的时刻。它标准化了网络通信,让不同系统能够无缝对话,从而构建了我们今天所熟知的万维网。如今,在人工智能时代,我们正站在另一个历史性时刻的门槛上:MCP(Model Context Protocol)协议的出

MCP对Agent构建平台的深远影响:从工具协议到智能体生态的演进 2025-06-14 11:31

当我们审视人工智能发展的轨迹时,会发现每一次技术标准的确立都会带来行业格局的重新洗牌。近期发布的MCP(Model Context Protocol)正是这样一个具有里程碑意义的协议,它不仅仅是一个技术规范,更是重新定义了智能体(Agent)生态系统的基础架构。 MCP带来的核心技术革新 让我们首先

谷歌传奇:从车库起家到万亿帝国的商业密码 2025-06-02 11:17

别光盯着英伟达了,全球最赚钱的科技公司,其实是那个“AI掉队”的谷歌? 嘿,朋友们!聊到科技圈谁最能赚钱,你可能第一个想到的是手握AI核弹的英伟达,或是人手一台iPhone的苹果。但你绝对想不到,真正的“吸金霸主”,竟然是在这波AI大潮里看着有点“落寞”的谷歌。 就在最近,谷歌的母公司Alphabe

中美AI竞争:应用普及决定最终胜负 2025-06-01 15:37

春节期间DeepSeek的异军突起如同一颗重磅炸弹,瞬间点燃了美国科技界的竞争神经。这个来自中国的AI模型不仅技术实力令人刮目相看,更重要的是它让美国意识到,在AI这场世纪竞赛中,中国正在以惊人的速度追赶甚至超越。 美国的焦虑与反思 面对中国AI的快速崛起,美国国会迅速召开听证会,邀请了包括Open

目录

开源商业之探索者 心智生产力开发者

立即体验

  • 商城
  • Answer
  • Flarum
  • Memos

主菜单

  • 首页
  • 开源商业
  • 自托管
  • RAG框架
  • 定价
  • 立即体验
  • 关于

Copyright © 2020-2025 厦门市思明区壳拿廊电子产品店

All Rights Reserved.Powered by 天机亘古

闽ICP备2024072539号.