Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
7 changes: 7 additions & 0 deletions chapters/zh-CN/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -190,6 +190,13 @@
title: 章末测试
quiz: 9

- title: 12. 构建推理模型
sections:
- local: chapter12/1
title: 章节简介
- local: chapter12/2
title: 强化学习在大语言模型上的应用

- title: 课程活动
sections:
- local: events/2
Expand Down
99 changes: 99 additions & 0 deletions chapters/zh-CN/chapter12/1.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,99 @@
# 面向学生的Open R1

欢迎踏上这段激动人心的旅程,一起进入开源AI与强化学习的世界!这个篇章是为了帮助学生理解强化学习以及它在大语言模型(LLMs)中日益重要的作用。

我们会一同探索这个突破性的社区开源项目[Open R1](https://github.com/huggingface/open-r1),让更多的人接触到先进的AI技术。具体而言,这个课程会帮助学生以及所有学习者使用并参与贡献[Open R1](https://github.com/huggingface/open-r1)。

## 你会学到什么

在这个章节中,我们会将复杂的概念拆解成通俗易懂的碎片,向你展示如何可以参与到这个令人激动的项目中,教会大语言模型在复杂的问题中推理。

大语言模型已经在很多生成任务上展示了优异的表现,但是,直到最近,他们仍然在需要推理的复杂问题上难以胜任。比如,他们难以处理需要多步骤推理的谜题或数学难题。

Open R1 是一个致力于让大语言模型可以在复杂问题上推理的项目,通过使用强化学习鼓励大语言模型“思考”和推理。

简单来说,模型经过训练后,既能生成“思考过程”,也能生成“最终输出”,并将二者进行结构化处理,以便用户可以分开处理和利用。

让我们来一起看一下这个例子。当我们要解决下面这个问题时,我们可能会这样思考:

```sh
问题: "我有3个苹果和2个橙子. 我总共有多少个水果?"

思考: "我需要把苹果的数量和橙子的数量加起来,得到总共的水果数量。"

答案: "5"
```

我们接下来要结构化这个思考过程和答案,以便于被用户分别处理。对于需要推理的任务,大语言模型会被训练为按照以下格式生成思考过程和答案:

```sh
<思考>我需要把苹果的数量和橙子的数量加起来,得到总共的水果数量。</思考>
5
```

作为用户,我们便可以从模型的最终输出中提取出“思考过程”和“答案”,用于解决实际问题。

## 为什么这对学生来说很重要

作为一名学生,理解Open R1以及强化学习在大语言模型中的作用至关重要,因为:

- 它向你展示尖端前沿的AI技术的训练过程
- 它为你提供亲身学习实践并做贡献的机会
- 它有助于你洞察人工智能技术的发展方向
- 它将为你打开AI领域未来职业发展的大门

## 章节概览

本章共包含四个章节,各部分将侧重于Open R1的一个不同的方面:

### 1️⃣ 强化学习简介及其在大语言模型(LLMs)中的作用

我们将会剖析强化学习的基本概念,及其在训练大语言模型中的作用。

- 什么是强化学习
- 强化学习如何被应用于大语言模型中
- 什么是DeepSeek R1
- DeepSeek R1中的关键创新

### 解读DeepSeek R1论文

我们将会对启发了[Open R1](https://huggingface.co/open-r1)的这篇论文进行详细拆解:

- 核心创新和重大突破
- 训练流程和模型架构
- 实验结果和重要意义

### 3️⃣ 在TRL中实现GRPO算法

我们会动手实操代码案例:

- 如何使用Transformer Reinforcement Learning (TRL)库
- GRPO训练环境配置

### 4️⃣ 模型对齐实操案例

我们将使用Open R1具体展示一个对齐模型的实际应用案例:

- 如何在TRL库中使用GRPO算法训练模型
- 分享你的模型到[Hugging Face 模型库](https://huggingface.co/models)中

## 预备知识

拥有以下预备知识会帮助你更好掌握本章的大部分内容:
- 扎实的Python编程
- 熟悉机器学习概念
- 对人工智能和语言模型感兴趣

即使你缺少其中一些知识也无需担心 —— 随着课程的深入,我们会逐步解释所有关键概念!🚀

> [!TIP]
> 如果你完全不具备以上所有预备知识,可以查看本[课程](/course/chapter1/1)的第1单元至第11单元进行学习

## 如何使用本章

1. **按序阅读**:各个章节的内容环环相扣,建议按顺序研读,才能收获更多噢!
2. **分享笔记**:记录下核心概念和问题,在我们的[Discord](https://discord.gg/UrrTSsSyjb)社区里和大家一起探讨吧!
3. **动手编程**:当我们学到实践案例时,请务必动手亲自尝试噢!
4. **加入社区**:利用我们提供的资源和更多的学习者交流切磋吧!

让我们一起开启Open R1的探索之旅,成为让所有人都能接触人工智能技术的一份子吧!🚀
Loading