大模型原理(PM 版)
你将学到什么
- 理解 Transformer 的核心机制
- 掌握大模型的训练过程
- 学会估算 Token 成本和性能
预计时间:18分钟
目标:不是让你复现论文,而是让你在跟工程师对话时不被忽悠,在面试时答得上来。
快速开始
你需要掌握的三个层次
层次 1:能解释原理(说得清楚) ← 面试必考
层次 2:能估算成本/性能 ← 产品决策用
层次 3:能读懂技术方案文档 ← 日常沟通用Transformer:大模型的心脏
本节学习目标
- 理解注意力机制的核心思想
- 掌握 Transformer 优于 RNN 的原因
- 能向非技术人员解释 Transformer
注意力机制是什么?
核心思想:理解一个词时,关注与它相关的其他词
人类的阅读方式:
当你读"苹果公司发布了新手机"时:
- 看到"手机",你会联想到"苹果"(品牌)和"发布"(动作)
- 而不是"了"(无关词)
Transformer 的做法:
对每个词,计算它与句子中其他所有词的相关性得分,得分越高,该词对理解当前词的帮助越大。
句子:["苹果", "公司", "发布", "了", "新", "手机"]
理解"手机"时的注意力权重:
苹果(0.4) | 公司(0.1) | 发布(0.3) | 了(0.05) | 新(0.15) | 手机(自身)
↑ ↑ ↑
最相关 次相关 次相关关键点:
- 注意力权重是自动学习的,不是人工设定
- 每个词都会关注所有其他词,建立全局关联
Transformer vs RNN
背景:2017年 Google 发布《Attention is All You Need》,Transformer 取代了旧技术 RNN
| 对比维度 | RNN(旧技术) | Transformer |
|---|---|---|
| 处理方式 | 逐词顺序处理 | 所有词并行处理 |
| 长距离依赖 | 容易遗忘 | 直接建立关联 |
| 训练速度 | 慢(无法并行) | 快(GPU 并行) |
| 适用场景 | 短文本 | 长文本、复杂推理 |
真实案例:
句子:"我在北京出生,后来搬到上海,现在我住在___"
RNN 的问题:
- 逐词处理:我 → 在 → 北京 → 出生 → ...
- 处理到"住在"时,"北京"和"上海"的信息已经模糊
- 容易答错
Transformer 的优势:
- 并行处理所有词
- "住在"可以直接关注"北京"和"上海"
- 准确推断出"上海"
互动练习
练习1:理解注意力机制
句子:"小明在图书馆借了一本关于人工智能的书"
问题:理解"书"这个词时,注意力权重最高的 3 个词是什么?
显示答案
答案:借(0.4) | 人工智能(0.3) | 图书馆(0.2)
解析:
- 借:动词,直接关联"书"这个宾语
- 人工智能:修饰"书"的主题
- 图书馆:"书"的来源地
不相关的词:
- 小明(0.05):主语,与"书"关系较弱
- 在(0.02):介词,无实际意义
- 了(0.01):助词,无实际意义
- 一本(0.02):量词,关系较弱
检查点
学完本节,你应该能:
- [ ] 用"关注相关词"解释注意力机制
- [ ] 说出 Transformer 优于 RNN 的 3 个原因
- [ ] 判断句子中哪些词的注意力权重高
如果还不能:重新阅读注意力机制是什么部分
大模型的训练过程
本节学习目标
- 理解训练的三个阶段
- 掌握每个阶段的目标和成本
- 能解释为什么需要 RLHF
训练的三个阶段
原始互联网文本 → [预训练] → 基座模型
↓
人工标注对话 → [SFT] → 指令跟随模型
↓
人工偏好标注 → [RLHF] → 对齐模型(ChatGPT 类)阶段 1:预训练(Pre-training)
目标:让模型学会语言规律和世界知识
训练方式:预测下一个词
输入:"北京是中国的___"
模型预测:首都(0.8) | 城市(0.1) | 地方(0.05) | ...
正确答案:首都
模型调整参数,提高"首都"的概率数据规模:
- 万亿级 Token(互联网文本、书籍、代码、论文)
- 例如:GPT-3 用了 45TB 文本数据
成本:
- 数百万到数亿美元
- 需要数千个 GPU,训练数月
关键点:
- 预训练后的模型只会"续写",不会"按要求回答"
- 例如:输入"写一首诗",模型可能续写"写一首诗的方法是..."
阶段 2:指令微调(SFT)
目标:让模型学会"按要求回答"而不只是"续写"
训练方式:人工标注"指令-回答"对
指令:"写一首关于春天的诗"
标注答案:"春风拂面暖人心,万物复苏绿意新..."
指令:"解释什么是 Transformer"
标注答案:"Transformer 是一种基于注意力机制的..."数据规模:
- 数十万条人工标注对话
- 远少于预训练数据
成本:
- 远低于预训练(数十万到数百万美元)
- 主要成本是人工标注
关键点:
- SFT 后的模型会"按要求回答"
- 但回答质量参差不齐,可能不符合人类偏好
阶段 3:人类反馈强化学习(RLHF)
目标:让回答更有帮助、更安全、更符合人类偏好
训练方式:人工对比两个回答哪个更好
用户问:"如何学习编程?"
回答 A:"先学 Python,再学数据结构..."
回答 B:"编程很难,你可能学不会..."
人工标注:A 更好
模型学习:提高 A 类回答的概率,降低 B 类回答的概率训练流程:
- 生成多个回答
- 人工排序(哪个最好、哪个最差)
- 训练奖励模型(预测人类偏好)
- 用奖励模型引导主模型优化
成本:
- 数十万到数百万美元
- 主要成本是人工标注偏好
关键点:
- RLHF 是 ChatGPT 成功的关键
- 让模型更"有用"、更"安全"
互动练习
练习2:判断训练阶段
以下场景分别对应哪个训练阶段?
场景 1:模型在 Wikipedia、GitHub、书籍上学习,预测下一个词
场景 2:人工标注 10 万条"用户问题-标准答案"对
场景 3:人工对比"礼貌回答"和"粗鲁回答",标注哪个更好
显示答案
| 场景 | 训练阶段 | 目标 |
|---|---|---|
| 场景 1 | 预训练 | 学习语言规律和世界知识 |
| 场景 2 | SFT | 学会按指令回答 |
| 场景 3 | RLHF | 学会符合人类偏好的回答 |
记忆技巧:
- 预训练:喂数据,学知识
- SFT:教规矩,学回答
- RLHF:调偏好,学做人
检查点
推理:模型怎么"说话"
本节学习目标
- 理解模型的逐词预测机制
- 掌握 Temperature 参数的作用
- 能根据场景选择合适的 Temperature
逐词预测机制
关键点:模型不是"查找答案",而是逐词预测概率
过程演示:
用户输入:"今天天气"
步骤 1:
输入:今天天气
预测:很(0.4) | 不(0.2) | 挺(0.15) | 真(0.1) | ...
选择:很(概率最高)
步骤 2:
输入:今天天气很
预测:好(0.5) | 糟(0.15) | 热(0.2) | 冷(0.1) | ...
选择:好
步骤 3:
输入:今天天气很好
预测:,(0.3) | 。(0.4) | !(0.2) | ...
选择:。
最终输出:"今天天气很好。"关键点:
- 每次只预测一个词
- 每个词都基于前面所有词的上下文
- 预测是概率分布,不是确定答案
Temperature 参数
定义:控制输出的"随机性"
工作原理:
原始概率分布:
好(0.5) | 糟(0.15) | 热(0.2) | 冷(0.1) | ...
Temperature = 0(确定性):
好(1.0) | 糟(0) | 热(0) | 冷(0) | ...
→ 每次都选"好"
Temperature = 0.7(适度随机):
好(0.6) | 糟(0.1) | 热(0.2) | 冷(0.1) | ...
→ 大概率选"好",偶尔选"热"
Temperature = 1.5(高随机):
好(0.3) | 糟(0.2) | 热(0.25) | 冷(0.25) | ...
→ 各种词都可能被选中Temperature 使用指南
| Temperature | 效果 | 适用场景 | 例子 |
|---|---|---|---|
| 0 | 每次输出相同,选最高概率词 | 代码生成、精确查询 | "写一个排序函数" |
| 0.3-0.5 | 输出稳定,略有变化 | 客服、知识问答 | "退货政策是什么?" |
| 0.7(默认) | 适度多样性 | 通用对话 | "推荐一部电影" |
| 1.0-1.5 | 输出更发散、创意更强 | 创意写作、头脑风暴 | "写一个科幻故事" |
互动练习
练习3:选择合适的 Temperature
以下场景应该用什么 Temperature?
场景 1:AI 客服回答"退货流程是什么?"
场景 2:AI 写诗:"写一首关于秋天的诗"
场景 3:AI 生成 SQL 查询:"查询销售额前 10 的商品"
显示答案
| 场景 | Temperature | 原因 |
|---|---|---|
| 场景 1 | 0-0.3 | 退货流程是固定的,不能随意发挥,需要准确一致 |
| 场景 2 | 1.0-1.5 | 诗歌需要创意和多样性,高随机性更好 |
| 场景 3 | 0 | SQL 语法严格,不能有任何随机性,必须准确 |
记忆技巧:
- 需要准确 → Temperature 低
- 需要创意 → Temperature 高
检查点
PM 必须能估算的指标
本节学习目标
- 理解 Context Window 的限制
- 掌握 Token 成本估算方法
- 能根据业务需求选择合适的模型
Context Window(上下文窗口)
定义:模型"一次能看多长的内容"
关键点:
- 超出窗口的内容会被截断
- 窗口越大,成本越高
主流模型对比:
| 模型 | Context Window | 适用场景 |
|---|---|---|
| GPT-3.5 | 16K Token | 短对话、简单任务 |
| GPT-4o | 128K Token | 长文档分析 |
| Claude 3.5 Sonnet | 200K Token | 超长文档、代码库分析 |
| Gemini 1.5 Pro | 1M Token | 整本书、大型代码库 |
Token 换算:
- 1 Token ≈ 0.75 个英文单词
- 1 Token ≈ 1-2 个中文字
例子:
16K Token ≈ 12,000 英文单词 ≈ 8,000-16,000 中文字
≈ 一篇 10 页的论文
≈ 一个中等长度的技术文档Token 成本估算
公式:
单次调用成本 = (输入 Token × 输入单价 + 输出 Token × 输出单价) / 1,000,000主流模型价格(2026年4月):
| 模型 | 输入价格 | 输出价格 | 速度 |
|---|---|---|---|
| GPT-4o-mini | $0.15/百万 | $0.6/百万 | 很快 |
| GPT-4o | $2.5/百万 | $10/百万 | 快 |
| Claude Sonnet | $3/百万 | $15/百万 | 中 |
互动练习
练习4:估算月成本
某 AI 客服功能:
- DAU:10,000
- 每人每天咨询 2 次
- 平均输入:300 Token
- 平均输出:200 Token
- 模型:GPT-4o($2.5/百万输入,$10/百万输出)
问题:月成本是多少?
显示答案
答案:$210/月
计算过程:
单次成本 = (300 × 2.5 + 200 × 10) / 1,000,000
= (0.00075 + 0.002) / 1
= $0.00275
日调用次数 = 10,000 × 2 = 20,000 次
日成本 = 20,000 × $0.00275 = $55
月成本 = $55 × 30 = $1,650等等,我算错了!重新算:
输入成本 = 10,000 × 2 × 300 × 2.5 / 1,000,000 = $15/天
输出成本 = 10,000 × 2 × 200 × 10 / 1,000,000 = $40/天
日成本 = $15 + $40 = $55/天
月成本 = $55 × 30 = $1,650/月优化建议:
- 改用 GPT-4o-mini:成本降至 $210/月(降低 87%)
- 限制输出长度至 100 Token:成本降至 $825/月(降低 50%)
可复用工具
工具7:模型选型决策树
是否需要处理超长文档(>10万字)?
├─ 是 → Claude Sonnet / Gemini 1.5 Pro
└─ 否 → 是否需要复杂推理?
├─ 是 → GPT-4o / Claude Sonnet
└─ 否 → 是否对成本敏感?
├─ 是 → GPT-4o-mini / Claude Haiku
└─ 否 → GPT-4o(平衡选择)检查点
关键术语速查
| 术语 | 一句话解释 |
|---|---|
| Token | 模型处理文本的最小单位,约 1 词或 1-2 汉字 |
| Embedding | 把文本转成向量(数字列表),使语义可计算 |
| Fine-tuning | 在预训练模型上用特定数据继续训练 |
| RAG | 检索增强生成:回答前先查外部知识库 |
| Prompt | 输入给模型的文字指令 |
| Hallucination | 模型自信但错误的"编造"输出 |
| Quantization | 压缩模型精度,降低推理成本(4-bit, 8-bit) |
| Inference | 用训练好的模型生成输出(区别于训练) |
面试答题模板
Q:请解释一下大模型的原理
标准答案(60秒版本):
"大模型核心是 Transformer 架构,通过注意力机制理解词与词之间的语义关系。训练分三步:预训练学语言规律、SFT 学指令跟随、RLHF 做价值对齐。推理时逐词预测概率,Temperature 控制多样性。产品侧最关键的参数是 Context Window(决定能处理多长的输入)和 Token 成本(直接影响商业模型)。"
加分点:
- 举例说明注意力机制("理解'手机'时会关注'苹果'和'发布'")
- 说明 RLHF 是 ChatGPT 成功的关键
- 提到 Temperature 的应用场景(代码生成用 0,创意写作用 1.5)
下一步
继续学习
- Agent 是什么 - 理解 Agent 的核心能力
- AI PM 技术边界 - 掌握成本估算和方案评审
- 面试题库 - 模型评估部分 - 练习相关面试题
实战任务
任务:估算一个 AI 功能的月成本
提交格式:
【功能描述】(简述)
【使用场景】
【参数估算】
- DAU:
- 日均使用次数:
- 平均输入 Token:
- 平均输出 Token:
- 模型选择:
【月成本计算】
【优化建议】附录
训练 vs 推理
| 对比维度 | 训练 | 推理 |
|---|---|---|
| 目标 | 学习参数 | 生成输出 |
| 成本 | 数百万到数亿美元 | 每次几美分 |
| 时间 | 数周到数月 | 毫秒到秒级 |
| 谁做 | 模型提供商(OpenAI/Anthropic) | 用户(API 调用) |
模型规模对比
| 模型 | 参数量 | 训练成本 |
|---|---|---|
| GPT-3 | 175B | ~$5M |
| GPT-4 | 1.7T(估计) | ~$100M |
| Claude 3.5 | 未公开 | 数千万美元 |