大模型原理（PM 版）

你将学到什么

理解 Transformer 的核心机制
掌握大模型的训练过程
学会估算 Token 成本和性能

预计时间：18分钟

目标：不是让你复现论文，而是让你在跟工程师对话时不被忽悠，在面试时答得上来。

快速开始

你需要掌握的三个层次

层次 1：能解释原理（说得清楚）    ← 面试必考
层次 2：能估算成本/性能          ← 产品决策用
层次 3：能读懂技术方案文档        ← 日常沟通用

Transformer：大模型的心脏

本节学习目标

理解注意力机制的核心思想
掌握 Transformer 优于 RNN 的原因
能向非技术人员解释 Transformer

注意力机制是什么？

核心思想：理解一个词时，关注与它相关的其他词

人类的阅读方式：

当你读"苹果公司发布了新手机"时：

看到"手机"，你会联想到"苹果"（品牌）和"发布"（动作）
而不是"了"（无关词）

Transformer 的做法：

对每个词，计算它与句子中其他所有词的相关性得分，得分越高，该词对理解当前词的帮助越大。

句子：["苹果", "公司", "发布", "了", "新", "手机"]

理解"手机"时的注意力权重：
苹果(0.4) | 公司(0.1) | 发布(0.3) | 了(0.05) | 新(0.15) | 手机(自身)
         ↑                    ↑                      ↑
      最相关              次相关                  次相关

关键点：

注意力权重是自动学习的，不是人工设定
每个词都会关注所有其他词，建立全局关联

Transformer vs RNN

背景：2017年 Google 发布《Attention is All You Need》，Transformer 取代了旧技术 RNN

对比维度	RNN（旧技术）	Transformer
处理方式	逐词顺序处理	所有词并行处理
长距离依赖	容易遗忘	直接建立关联
训练速度	慢（无法并行）	快（GPU 并行）
适用场景	短文本	长文本、复杂推理

真实案例：

句子："我在北京出生，后来搬到上海，现在我住在___"

RNN 的问题：

逐词处理：我 → 在 → 北京 → 出生 → ...
处理到"住在"时，"北京"和"上海"的信息已经模糊
容易答错

Transformer 的优势：

并行处理所有词
"住在"可以直接关注"北京"和"上海"
准确推断出"上海"

互动练习

练习1：理解注意力机制

句子："小明在图书馆借了一本关于人工智能的书"

问题：理解"书"这个词时，注意力权重最高的 3 个词是什么？

显示答案

答案：借(0.4) | 人工智能(0.3) | 图书馆(0.2)

解析：

借：动词，直接关联"书"这个宾语
人工智能：修饰"书"的主题
图书馆："书"的来源地

不相关的词：

小明(0.05)：主语，与"书"关系较弱
在(0.02)：介词，无实际意义
了(0.01)：助词，无实际意义
一本(0.02)：量词，关系较弱

检查点

学完本节，你应该能：

[ ] 用"关注相关词"解释注意力机制
[ ] 说出 Transformer 优于 RNN 的 3 个原因
[ ] 判断句子中哪些词的注意力权重高

如果还不能：重新阅读注意力机制是什么部分

大模型的训练过程

本节学习目标

理解训练的三个阶段
掌握每个阶段的目标和成本
能解释为什么需要 RLHF

训练的三个阶段

原始互联网文本 → [预训练] → 基座模型
                          ↓
             人工标注对话 → [SFT] → 指令跟随模型
                                   ↓
                人工偏好标注 → [RLHF] → 对齐模型（ChatGPT 类）

阶段 1：预训练（Pre-training）

目标：让模型学会语言规律和世界知识

训练方式：预测下一个词

输入："北京是中国的___"
模型预测：首都(0.8) | 城市(0.1) | 地方(0.05) | ...
正确答案：首都
模型调整参数，提高"首都"的概率

数据规模：

万亿级 Token（互联网文本、书籍、代码、论文）
例如：GPT-3 用了 45TB 文本数据

成本：

数百万到数亿美元
需要数千个 GPU，训练数月

关键点：

预训练后的模型只会"续写"，不会"按要求回答"
例如：输入"写一首诗"，模型可能续写"写一首诗的方法是..."

阶段 2：指令微调（SFT）

目标：让模型学会"按要求回答"而不只是"续写"

训练方式：人工标注"指令-回答"对

指令："写一首关于春天的诗"
标注答案："春风拂面暖人心，万物复苏绿意新..."

指令："解释什么是 Transformer"
标注答案："Transformer 是一种基于注意力机制的..."

数据规模：

数十万条人工标注对话
远少于预训练数据

成本：

远低于预训练（数十万到数百万美元）
主要成本是人工标注

关键点：

SFT 后的模型会"按要求回答"
但回答质量参差不齐，可能不符合人类偏好

阶段 3：人类反馈强化学习（RLHF）

目标：让回答更有帮助、更安全、更符合人类偏好

训练方式：人工对比两个回答哪个更好

用户问："如何学习编程？"

回答 A："先学 Python，再学数据结构..."
回答 B："编程很难，你可能学不会..."

人工标注：A 更好

模型学习：提高 A 类回答的概率，降低 B 类回答的概率

训练流程：

生成多个回答
人工排序（哪个最好、哪个最差）
训练奖励模型（预测人类偏好）
用奖励模型引导主模型优化

成本：

数十万到数百万美元
主要成本是人工标注偏好

关键点：

RLHF 是 ChatGPT 成功的关键
让模型更"有用"、更"安全"

互动练习

练习2：判断训练阶段

以下场景分别对应哪个训练阶段？

场景 1：模型在 Wikipedia、GitHub、书籍上学习，预测下一个词
场景 2：人工标注 10 万条"用户问题-标准答案"对
场景 3：人工对比"礼貌回答"和"粗鲁回答"，标注哪个更好

显示答案

场景	训练阶段	目标
场景 1	预训练	学习语言规律和世界知识
场景 2	SFT	学会按指令回答
场景 3	RLHF	学会符合人类偏好的回答

记忆技巧：

预训练：喂数据，学知识
SFT：教规矩，学回答
RLHF：调偏好，学做人

检查点

学完本节，你应该能：

[ ] 说出训练的三个阶段及其目标
[ ] 理解为什么需要 RLHF
[ ] 估算每个阶段的成本量级

如果还不能：重新阅读训练的三个阶段部分

推理：模型怎么"说话"

本节学习目标

理解模型的逐词预测机制
掌握 Temperature 参数的作用
能根据场景选择合适的 Temperature

逐词预测机制

关键点：模型不是"查找答案"，而是逐词预测概率

过程演示：

用户输入："今天天气"

步骤 1：
输入：今天天气
预测：很(0.4) | 不(0.2) | 挺(0.15) | 真(0.1) | ...
选择：很（概率最高）

步骤 2：
输入：今天天气很
预测：好(0.5) | 糟(0.15) | 热(0.2) | 冷(0.1) | ...
选择：好

步骤 3：
输入：今天天气很好
预测：，(0.3) | 。(0.4) | ！(0.2) | ...
选择：。

最终输出："今天天气很好。"

关键点：

每次只预测一个词
每个词都基于前面所有词的上下文
预测是概率分布，不是确定答案

Temperature 参数

定义：控制输出的"随机性"

工作原理：

原始概率分布：
好(0.5) | 糟(0.15) | 热(0.2) | 冷(0.1) | ...

Temperature = 0（确定性）：
好(1.0) | 糟(0) | 热(0) | 冷(0) | ...
→ 每次都选"好"

Temperature = 0.7（适度随机）：
好(0.6) | 糟(0.1) | 热(0.2) | 冷(0.1) | ...
→ 大概率选"好"，偶尔选"热"

Temperature = 1.5（高随机）：
好(0.3) | 糟(0.2) | 热(0.25) | 冷(0.25) | ...
→ 各种词都可能被选中

Temperature 使用指南

Temperature	效果	适用场景	例子
0	每次输出相同，选最高概率词	代码生成、精确查询	"写一个排序函数"
0.3-0.5	输出稳定，略有变化	客服、知识问答	"退货政策是什么？"
0.7（默认）	适度多样性	通用对话	"推荐一部电影"
1.0-1.5	输出更发散、创意更强	创意写作、头脑风暴	"写一个科幻故事"

互动练习

练习3：选择合适的 Temperature

以下场景应该用什么 Temperature？

场景 1：AI 客服回答"退货流程是什么？"
场景 2：AI 写诗："写一首关于秋天的诗"
场景 3：AI 生成 SQL 查询："查询销售额前 10 的商品"

显示答案

场景	Temperature	原因
场景 1	0-0.3	退货流程是固定的，不能随意发挥，需要准确一致
场景 2	1.0-1.5	诗歌需要创意和多样性，高随机性更好
场景 3	0	SQL 语法严格，不能有任何随机性，必须准确

记忆技巧：

需要准确 → Temperature 低
需要创意 → Temperature 高

检查点

学完本节，你应该能：

[ ] 解释模型的逐词预测机制
[ ] 理解 Temperature 参数的作用
[ ] 根据场景选择合适的 Temperature

如果还不能：重新阅读逐词预测机制部分

PM 必须能估算的指标

本节学习目标

理解 Context Window 的限制
掌握 Token 成本估算方法
能根据业务需求选择合适的模型

Context Window（上下文窗口）

定义：模型"一次能看多长的内容"

关键点：

超出窗口的内容会被截断
窗口越大，成本越高

主流模型对比：

模型	Context Window	适用场景
GPT-3.5	16K Token	短对话、简单任务
GPT-4o	128K Token	长文档分析
Claude 3.5 Sonnet	200K Token	超长文档、代码库分析
Gemini 1.5 Pro	1M Token	整本书、大型代码库

Token 换算：

1 Token ≈ 0.75 个英文单词
1 Token ≈ 1-2 个中文字

例子：

16K Token ≈ 12,000 英文单词 ≈ 8,000-16,000 中文字
         ≈ 一篇 10 页的论文
         ≈ 一个中等长度的技术文档

Token 成本估算

公式：

单次调用成本 = (输入 Token × 输入单价 + 输出 Token × 输出单价) / 1,000,000

主流模型价格（2026年4月）：

模型	输入价格	输出价格	速度
GPT-4o-mini	$0.15/百万	$0.6/百万	很快
GPT-4o	$2.5/百万	$10/百万	快
Claude Sonnet	$3/百万	$15/百万	中

互动练习

练习4：估算月成本

某 AI 客服功能：

DAU：10,000
每人每天咨询 2 次
平均输入：300 Token
平均输出：200 Token
模型：GPT-4o（$2.5/百万输入，$10/百万输出）

问题：月成本是多少？

显示答案

答案：$210/月

计算过程：

单次成本 = (300 × 2.5 + 200 × 10) / 1,000,000
         = (0.00075 + 0.002) / 1
         = $0.00275

日调用次数 = 10,000 × 2 = 20,000 次
日成本 = 20,000 × $0.00275 = $55

月成本 = $55 × 30 = $1,650

等等，我算错了！重新算：

输入成本 = 10,000 × 2 × 300 × 2.5 / 1,000,000 = $15/天
输出成本 = 10,000 × 2 × 200 × 10 / 1,000,000 = $40/天
日成本 = $15 + $40 = $55/天
月成本 = $55 × 30 = $1,650/月

优化建议：

改用 GPT-4o-mini：成本降至 $210/月（降低 87%）
限制输出长度至 100 Token：成本降至 $825/月（降低 50%）

可复用工具

工具7：模型选型决策树

是否需要处理超长文档（>10万字）？
├─ 是 → Claude Sonnet / Gemini 1.5 Pro
└─ 否 → 是否需要复杂推理？
    ├─ 是 → GPT-4o / Claude Sonnet
    └─ 否 → 是否对成本敏感？
        ├─ 是 → GPT-4o-mini / Claude Haiku
        └─ 否 → GPT-4o（平衡选择）

检查点

学完本节，你应该能：

[ ] 理解 Context Window 的限制
[ ] 用公式估算 Token 成本
[ ] 根据业务需求选择合适的模型

如果还不能：重新阅读Token 成本估算部分

关键术语速查

术语	一句话解释
Token	模型处理文本的最小单位，约 1 词或 1-2 汉字
Embedding	把文本转成向量（数字列表），使语义可计算
Fine-tuning	在预训练模型上用特定数据继续训练
RAG	检索增强生成：回答前先查外部知识库
Prompt	输入给模型的文字指令
Hallucination	模型自信但错误的"编造"输出
Quantization	压缩模型精度，降低推理成本（4-bit, 8-bit）
Inference	用训练好的模型生成输出（区别于训练）

面试答题模板

Q：请解释一下大模型的原理

标准答案（60秒版本）：

"大模型核心是 Transformer 架构，通过注意力机制理解词与词之间的语义关系。训练分三步：预训练学语言规律、SFT 学指令跟随、RLHF 做价值对齐。推理时逐词预测概率，Temperature 控制多样性。产品侧最关键的参数是 Context Window（决定能处理多长的输入）和 Token 成本（直接影响商业模型）。"

加分点：

举例说明注意力机制（"理解'手机'时会关注'苹果'和'发布'"）
说明 RLHF 是 ChatGPT 成功的关键
提到 Temperature 的应用场景（代码生成用 0，创意写作用 1.5）

下一步

继续学习

Agent 是什么 - 理解 Agent 的核心能力
AI PM 技术边界 - 掌握成本估算和方案评审
面试题库 - 模型评估部分 - 练习相关面试题

实战任务

任务：估算一个 AI 功能的月成本

提交格式：

markdown

【功能描述】（简述）
【使用场景】
【参数估算】
- DAU：
- 日均使用次数：
- 平均输入 Token：
- 平均输出 Token：
- 模型选择：
【月成本计算】
【优化建议】

附录

训练 vs 推理

对比维度	训练	推理
目标	学习参数	生成输出
成本	数百万到数亿美元	每次几美分
时间	数周到数月	毫秒到秒级
谁做	模型提供商（OpenAI/Anthropic）	用户（API 调用）

模型规模对比

模型	参数量	训练成本
GPT-3	175B	~$5M
GPT-4	1.7T（估计）	~$100M
Claude 3.5	未公开	数千万美元

大模型原理（PM 版） ​

快速开始 ​

Transformer：大模型的心脏 ​

注意力机制是什么？ ​

Transformer vs RNN ​

互动练习 ​

检查点 ​

大模型的训练过程 ​

训练的三个阶段 ​

阶段 1：预训练（Pre-training） ​

阶段 2：指令微调（SFT） ​

阶段 3：人类反馈强化学习（RLHF） ​

互动练习 ​

检查点 ​

推理：模型怎么"说话" ​

逐词预测机制 ​

Temperature 参数 ​

Temperature 使用指南 ​

互动练习 ​

检查点 ​

PM 必须能估算的指标 ​

Context Window（上下文窗口） ​

Token 成本估算 ​

互动练习 ​

可复用工具 ​

检查点 ​

关键术语速查 ​

面试答题模板 ​

下一步 ​

继续学习 ​

实战任务 ​

附录 ​

训练 vs 推理 ​

模型规模对比 ​

大模型原理（PM 版）

快速开始

Transformer：大模型的心脏

注意力机制是什么？

Transformer vs RNN

互动练习

检查点

大模型的训练过程

训练的三个阶段

阶段 1：预训练（Pre-training）

阶段 2：指令微调（SFT）

阶段 3：人类反馈强化学习（RLHF）

互动练习

检查点

推理：模型怎么"说话"

逐词预测机制

Temperature 参数

Temperature 使用指南

互动练习

检查点

PM 必须能估算的指标

Context Window（上下文窗口）

Token 成本估算

互动练习

可复用工具

检查点

关键术语速查

面试答题模板

下一步

继续学习

实战任务

附录

训练 vs 推理

模型规模对比