![DeepSeek-R1 介绍 [译]](https://dashy.timebank.space:8443/d/local/mnt/bjjd/local/mnt/bjjd/deepseek_3.png?sign=6a3gXgDPWZdlJaL9oh1Tru9-ov2n9nQuiHtH7C3Zfns=:0)
DeepSeek-R1 介绍 [译]
2025-02-02 17:44
原文 DeepSeek-AI 团队推出的 DeepSeek-R1 是一款强化学习驱动的推理模型系列,旨在提升数学、代码和推理能力。DeepSeek-R1 及其前身 DeepSeek-R1-Zero 采用了 大规模强化学习(RL) 训练策略,其中 DeepSeek-R1-Zero 是首个未经监督微调(