Skip to content

大模型原理(PM 版)

你将学到什么

  • 理解 Transformer 的核心机制
  • 掌握大模型的训练过程
  • 学会估算 Token 成本和性能

预计时间:18分钟

目标:不是让你复现论文,而是让你在跟工程师对话时不被忽悠,在面试时答得上来。


快速开始

你需要掌握的三个层次

层次 1:能解释原理(说得清楚)    ← 面试必考
层次 2:能估算成本/性能          ← 产品决策用
层次 3:能读懂技术方案文档        ← 日常沟通用

Transformer:大模型的心脏

本节学习目标

  • 理解注意力机制的核心思想
  • 掌握 Transformer 优于 RNN 的原因
  • 能向非技术人员解释 Transformer

注意力机制是什么?

核心思想:理解一个词时,关注与它相关的其他词

人类的阅读方式

当你读"苹果公司发布了新手机"时:

  • 看到"手机",你会联想到"苹果"(品牌)和"发布"(动作)
  • 而不是"了"(无关词)

Transformer 的做法

对每个词,计算它与句子中其他所有词的相关性得分,得分越高,该词对理解当前词的帮助越大。

句子:["苹果", "公司", "发布", "了", "新", "手机"]

理解"手机"时的注意力权重:
苹果(0.4) | 公司(0.1) | 发布(0.3) | 了(0.05) | 新(0.15) | 手机(自身)
         ↑                    ↑                      ↑
      最相关              次相关                  次相关

关键点

  • 注意力权重是自动学习的,不是人工设定
  • 每个词都会关注所有其他词,建立全局关联

Transformer vs RNN

背景:2017年 Google 发布《Attention is All You Need》,Transformer 取代了旧技术 RNN

对比维度RNN(旧技术)Transformer
处理方式逐词顺序处理所有词并行处理
长距离依赖容易遗忘直接建立关联
训练速度慢(无法并行)快(GPU 并行)
适用场景短文本长文本、复杂推理

真实案例

句子:"我在北京出生,后来搬到上海,现在我住在___"

RNN 的问题

  • 逐词处理:我 → 在 → 北京 → 出生 → ...
  • 处理到"住在"时,"北京"和"上海"的信息已经模糊
  • 容易答错

Transformer 的优势

  • 并行处理所有词
  • "住在"可以直接关注"北京"和"上海"
  • 准确推断出"上海"

互动练习

练习1:理解注意力机制

句子:"小明在图书馆借了一本关于人工智能的书"

问题:理解"书"这个词时,注意力权重最高的 3 个词是什么?

显示答案

答案:借(0.4) | 人工智能(0.3) | 图书馆(0.2)

解析

  • :动词,直接关联"书"这个宾语
  • 人工智能:修饰"书"的主题
  • 图书馆:"书"的来源地

不相关的词

  • 小明(0.05):主语,与"书"关系较弱
  • 在(0.02):介词,无实际意义
  • 了(0.01):助词,无实际意义
  • 一本(0.02):量词,关系较弱

检查点

学完本节,你应该能:

  • [ ] 用"关注相关词"解释注意力机制
  • [ ] 说出 Transformer 优于 RNN 的 3 个原因
  • [ ] 判断句子中哪些词的注意力权重高

如果还不能:重新阅读注意力机制是什么部分


大模型的训练过程

本节学习目标

  • 理解训练的三个阶段
  • 掌握每个阶段的目标和成本
  • 能解释为什么需要 RLHF

训练的三个阶段

原始互联网文本 → [预训练] → 基座模型

             人工标注对话 → [SFT] → 指令跟随模型

                人工偏好标注 → [RLHF] → 对齐模型(ChatGPT 类)

阶段 1:预训练(Pre-training)

目标:让模型学会语言规律和世界知识

训练方式:预测下一个词

输入:"北京是中国的___"
模型预测:首都(0.8) | 城市(0.1) | 地方(0.05) | ...
正确答案:首都
模型调整参数,提高"首都"的概率

数据规模

  • 万亿级 Token(互联网文本、书籍、代码、论文)
  • 例如:GPT-3 用了 45TB 文本数据

成本

  • 数百万到数亿美元
  • 需要数千个 GPU,训练数月

关键点

  • 预训练后的模型只会"续写",不会"按要求回答"
  • 例如:输入"写一首诗",模型可能续写"写一首诗的方法是..."

阶段 2:指令微调(SFT)

目标:让模型学会"按要求回答"而不只是"续写"

训练方式:人工标注"指令-回答"对

指令:"写一首关于春天的诗"
标注答案:"春风拂面暖人心,万物复苏绿意新..."

指令:"解释什么是 Transformer"
标注答案:"Transformer 是一种基于注意力机制的..."

数据规模

  • 数十万条人工标注对话
  • 远少于预训练数据

成本

  • 远低于预训练(数十万到数百万美元)
  • 主要成本是人工标注

关键点

  • SFT 后的模型会"按要求回答"
  • 但回答质量参差不齐,可能不符合人类偏好

阶段 3:人类反馈强化学习(RLHF)

目标:让回答更有帮助、更安全、更符合人类偏好

训练方式:人工对比两个回答哪个更好

用户问:"如何学习编程?"

回答 A:"先学 Python,再学数据结构..."
回答 B:"编程很难,你可能学不会..."

人工标注:A 更好

模型学习:提高 A 类回答的概率,降低 B 类回答的概率

训练流程

  1. 生成多个回答
  2. 人工排序(哪个最好、哪个最差)
  3. 训练奖励模型(预测人类偏好)
  4. 用奖励模型引导主模型优化

成本

  • 数十万到数百万美元
  • 主要成本是人工标注偏好

关键点

  • RLHF 是 ChatGPT 成功的关键
  • 让模型更"有用"、更"安全"

互动练习

练习2:判断训练阶段

以下场景分别对应哪个训练阶段?

场景 1:模型在 Wikipedia、GitHub、书籍上学习,预测下一个词
场景 2:人工标注 10 万条"用户问题-标准答案"对
场景 3:人工对比"礼貌回答"和"粗鲁回答",标注哪个更好

显示答案
场景训练阶段目标
场景 1预训练学习语言规律和世界知识
场景 2SFT学会按指令回答
场景 3RLHF学会符合人类偏好的回答

记忆技巧

  • 预训练:喂数据,学知识
  • SFT:教规矩,学回答
  • RLHF:调偏好,学做人

检查点

学完本节,你应该能:

  • [ ] 说出训练的三个阶段及其目标
  • [ ] 理解为什么需要 RLHF
  • [ ] 估算每个阶段的成本量级

如果还不能:重新阅读训练的三个阶段部分


推理:模型怎么"说话"

本节学习目标

  • 理解模型的逐词预测机制
  • 掌握 Temperature 参数的作用
  • 能根据场景选择合适的 Temperature

逐词预测机制

关键点:模型不是"查找答案",而是逐词预测概率

过程演示

用户输入:"今天天气"

步骤 1:
输入:今天天气
预测:很(0.4) | 不(0.2) | 挺(0.15) | 真(0.1) | ...
选择:很(概率最高)

步骤 2:
输入:今天天气很
预测:好(0.5) | 糟(0.15) | 热(0.2) | 冷(0.1) | ...
选择:好

步骤 3:
输入:今天天气很好
预测:,(0.3) | 。(0.4) | !(0.2) | ...
选择:。

最终输出:"今天天气很好。"

关键点

  • 每次只预测一个词
  • 每个词都基于前面所有词的上下文
  • 预测是概率分布,不是确定答案

Temperature 参数

定义:控制输出的"随机性"

工作原理

原始概率分布:
好(0.5) | 糟(0.15) | 热(0.2) | 冷(0.1) | ...

Temperature = 0(确定性):
好(1.0) | 糟(0) | 热(0) | 冷(0) | ...
→ 每次都选"好"

Temperature = 0.7(适度随机):
好(0.6) | 糟(0.1) | 热(0.2) | 冷(0.1) | ...
→ 大概率选"好",偶尔选"热"

Temperature = 1.5(高随机):
好(0.3) | 糟(0.2) | 热(0.25) | 冷(0.25) | ...
→ 各种词都可能被选中

Temperature 使用指南

Temperature效果适用场景例子
0每次输出相同,选最高概率词代码生成、精确查询"写一个排序函数"
0.3-0.5输出稳定,略有变化客服、知识问答"退货政策是什么?"
0.7(默认)适度多样性通用对话"推荐一部电影"
1.0-1.5输出更发散、创意更强创意写作、头脑风暴"写一个科幻故事"

互动练习

练习3:选择合适的 Temperature

以下场景应该用什么 Temperature?

场景 1:AI 客服回答"退货流程是什么?"
场景 2:AI 写诗:"写一首关于秋天的诗"
场景 3:AI 生成 SQL 查询:"查询销售额前 10 的商品"

显示答案
场景Temperature原因
场景 10-0.3退货流程是固定的,不能随意发挥,需要准确一致
场景 21.0-1.5诗歌需要创意和多样性,高随机性更好
场景 30SQL 语法严格,不能有任何随机性,必须准确

记忆技巧

  • 需要准确 → Temperature 低
  • 需要创意 → Temperature 高

检查点

学完本节,你应该能:

  • [ ] 解释模型的逐词预测机制
  • [ ] 理解 Temperature 参数的作用
  • [ ] 根据场景选择合适的 Temperature

如果还不能:重新阅读逐词预测机制部分


PM 必须能估算的指标

本节学习目标

  • 理解 Context Window 的限制
  • 掌握 Token 成本估算方法
  • 能根据业务需求选择合适的模型

Context Window(上下文窗口)

定义:模型"一次能看多长的内容"

关键点

  • 超出窗口的内容会被截断
  • 窗口越大,成本越高

主流模型对比

模型Context Window适用场景
GPT-3.516K Token短对话、简单任务
GPT-4o128K Token长文档分析
Claude 3.5 Sonnet200K Token超长文档、代码库分析
Gemini 1.5 Pro1M Token整本书、大型代码库

Token 换算

  • 1 Token ≈ 0.75 个英文单词
  • 1 Token ≈ 1-2 个中文字

例子

16K Token ≈ 12,000 英文单词 ≈ 8,000-16,000 中文字
         ≈ 一篇 10 页的论文
         ≈ 一个中等长度的技术文档

Token 成本估算

公式

单次调用成本 = (输入 Token × 输入单价 + 输出 Token × 输出单价) / 1,000,000

主流模型价格(2026年4月)

模型输入价格输出价格速度
GPT-4o-mini$0.15/百万$0.6/百万很快
GPT-4o$2.5/百万$10/百万
Claude Sonnet$3/百万$15/百万

互动练习

练习4:估算月成本

某 AI 客服功能:

  • DAU:10,000
  • 每人每天咨询 2 次
  • 平均输入:300 Token
  • 平均输出:200 Token
  • 模型:GPT-4o($2.5/百万输入,$10/百万输出)

问题:月成本是多少?

显示答案

答案:$210/月

计算过程

单次成本 = (300 × 2.5 + 200 × 10) / 1,000,000
         = (0.00075 + 0.002) / 1
         = $0.00275

日调用次数 = 10,000 × 2 = 20,000 次
日成本 = 20,000 × $0.00275 = $55

月成本 = $55 × 30 = $1,650

等等,我算错了!重新算:

输入成本 = 10,000 × 2 × 300 × 2.5 / 1,000,000 = $15/天
输出成本 = 10,000 × 2 × 200 × 10 / 1,000,000 = $40/天
日成本 = $15 + $40 = $55/天
月成本 = $55 × 30 = $1,650/月

优化建议

  • 改用 GPT-4o-mini:成本降至 $210/月(降低 87%)
  • 限制输出长度至 100 Token:成本降至 $825/月(降低 50%)

可复用工具

工具7:模型选型决策树

是否需要处理超长文档(>10万字)?
├─ 是 → Claude Sonnet / Gemini 1.5 Pro
└─ 否 → 是否需要复杂推理?
    ├─ 是 → GPT-4o / Claude Sonnet
    └─ 否 → 是否对成本敏感?
        ├─ 是 → GPT-4o-mini / Claude Haiku
        └─ 否 → GPT-4o(平衡选择)

检查点

学完本节,你应该能:

  • [ ] 理解 Context Window 的限制
  • [ ] 用公式估算 Token 成本
  • [ ] 根据业务需求选择合适的模型

如果还不能:重新阅读Token 成本估算部分


关键术语速查

术语一句话解释
Token模型处理文本的最小单位,约 1 词或 1-2 汉字
Embedding把文本转成向量(数字列表),使语义可计算
Fine-tuning在预训练模型上用特定数据继续训练
RAG检索增强生成:回答前先查外部知识库
Prompt输入给模型的文字指令
Hallucination模型自信但错误的"编造"输出
Quantization压缩模型精度,降低推理成本(4-bit, 8-bit)
Inference用训练好的模型生成输出(区别于训练)

面试答题模板

Q:请解释一下大模型的原理

标准答案(60秒版本):

"大模型核心是 Transformer 架构,通过注意力机制理解词与词之间的语义关系。训练分三步:预训练学语言规律、SFT 学指令跟随、RLHF 做价值对齐。推理时逐词预测概率,Temperature 控制多样性。产品侧最关键的参数是 Context Window(决定能处理多长的输入)和 Token 成本(直接影响商业模型)。"

加分点

  • 举例说明注意力机制("理解'手机'时会关注'苹果'和'发布'")
  • 说明 RLHF 是 ChatGPT 成功的关键
  • 提到 Temperature 的应用场景(代码生成用 0,创意写作用 1.5)

下一步

继续学习

实战任务

任务:估算一个 AI 功能的月成本

提交格式

markdown
【功能描述】(简述)
【使用场景】
【参数估算】
- DAU:
- 日均使用次数:
- 平均输入 Token:
- 平均输出 Token:
- 模型选择:
【月成本计算】
【优化建议】

附录

训练 vs 推理

对比维度训练推理
目标学习参数生成输出
成本数百万到数亿美元每次几美分
时间数周到数月毫秒到秒级
谁做模型提供商(OpenAI/Anthropic)用户(API 调用)

模型规模对比

模型参数量训练成本
GPT-3175B~$5M
GPT-41.7T(估计)~$100M
Claude 3.5未公开数千万美元

专为 AI 产品经理打造