huggingface · stevhliu · Dec 8, 2025 · Dec 1, 2025 · Dec 1, 2025 · Dec 2, 2025
diff --git a/chapters/zh-CN/_toctree.yml b/chapters/zh-CN/_toctree.yml
@@ -190,6 +190,13 @@
     title: 章末测试
     quiz: 9
 
+- title: 12. 构建推理模型
+  sections:
+  - local: chapter12/1
+    title: 章节简介
+  - local: chapter12/2
+    title: 强化学习在大语言模型上的应用
+
 - title: 课程活动
   sections:
   - local: events/2

diff --git a/chapters/zh-CN/chapter12/1.mdx b/chapters/zh-CN/chapter12/1.mdx
@@ -0,0 +1,99 @@
+# 面向学生的Open R1
+
+欢迎踏上这段激动人心的旅程，一起进入开源AI与强化学习的世界！这个篇章是为了帮助学生理解强化学习以及它在大语言模型（LLMs）中日益重要的作用。
+
+我们会一同探索这个突破性的社区开源项目[Open R1](https://github.com/huggingface/open-r1)，让更多的人接触到先进的AI技术。具体而言，这个课程会帮助学生以及所有学习者使用并参与贡献[Open R1](https://github.com/huggingface/open-r1)。
+
+## 你会学到什么
+
+在这个章节中，我们会将复杂的概念拆解成通俗易懂的碎片，向你展示如何可以参与到这个令人激动的项目中，教会大语言模型在复杂的问题中推理。
+
+大语言模型已经在很多生成任务上展示了优异的表现，但是，直到最近，他们仍然在需要推理的复杂问题上难以胜任。比如，他们难以处理需要多步骤推理的谜题或数学难题。
+
+Open R1 是一个致力于让大语言模型可以在复杂问题上推理的项目，通过使用强化学习鼓励大语言模型“思考”和推理。
+
+简单来说，模型经过训练后，既能生成“思考过程”，也能生成“最终输出”，并将二者进行结构化处理，以便用户可以分开处理和利用。
+
+让我们来一起看一下这个例子。当我们要解决下面这个问题时，我们可能会这样思考：
+
+```sh
+问题: "我有3个苹果和2个橙子. 我总共有多少个水果?"
+
+思考: "我需要把苹果的数量和橙子的数量加起来，得到总共的水果数量。"
+
+答案: "5"
+```
+
+我们接下来要结构化这个思考过程和答案，以便于被用户分别处理。对于需要推理的任务，大语言模型会被训练为按照以下格式生成思考过程和答案：
+
+```sh
+<思考>我需要把苹果的数量和橙子的数量加起来，得到总共的水果数量。</思考>
+5
+```
+
+作为用户，我们便可以从模型的最终输出中提取出“思考过程”和“答案”，用于解决实际问题。
+
+## 为什么这对学生来说很重要
+
+作为一名学生，理解Open R1以及强化学习在大语言模型中的作用至关重要，因为：
+
+- 它向你展示尖端前沿的AI技术的训练过程
+- 它为你提供亲身学习实践并做贡献的机会
+- 它有助于你洞察人工智能技术的发展方向
+- 它将为你打开AI领域未来职业发展的大门
+
+## 章节概览
+
+本章共包含四个章节，各部分将侧重于Open R1的一个不同的方面：
+
+### 1️⃣ 强化学习简介及其在大语言模型（LLMs）中的作用
+
+我们将会剖析强化学习的基本概念，及其在训练大语言模型中的作用。
+
+- 什么是强化学习
+- 强化学习如何被应用于大语言模型中
+- 什么是DeepSeek R1
+- DeepSeek R1中的关键创新
+
+### 解读DeepSeek R1论文
+
+我们将会对启发了[Open R1](https://huggingface.co/open-r1)的这篇论文进行详细拆解：
+
+- 核心创新和重大突破
+- 训练流程和模型架构
+- 实验结果和重要意义
+
+### 3️⃣ 在TRL中实现GRPO算法
+
+我们会动手实操代码案例：
+
+- 如何使用Transformer Reinforcement Learning (TRL)库
+- GRPO训练环境配置
+
+### 4️⃣ 模型对齐实操案例
+
+我们将使用Open R1具体展示一个对齐模型的实际应用案例：
+
+- 如何在TRL库中使用GRPO算法训练模型
+- 分享你的模型到[Hugging Face 模型库](https://huggingface.co/models)中
+
+## 预备知识
+
+拥有以下预备知识会帮助你更好掌握本章的大部分内容：
+- 扎实的Python编程
+- 熟悉机器学习概念
+- 对人工智能和语言模型感兴趣
+
+即使你缺少其中一些知识也无需担心 —— 随着课程的深入，我们会逐步解释所有关键概念！🚀
+
+> [!TIP]
+> 如果你完全不具备以上所有预备知识，可以查看本[课程](/course/chapter1/1)的第1单元至第11单元进行学习
+
+## 如何使用本章
+
+1. **按序阅读**：各个章节的内容环环相扣，建议按顺序研读，才能收获更多噢！
+2. **分享笔记**：记录下核心概念和问题，在我们的[Discord](https://discord.gg/UrrTSsSyjb)社区里和大家一起探讨吧！
+3. **动手编程**：当我们学到实践案例时，请务必动手亲自尝试噢！
+4. **加入社区**：利用我们提供的资源和更多的学习者交流切磋吧！
+
+让我们一起开启Open R1的探索之旅，成为让所有人都能接触人工智能技术的一份子吧！🚀