AI PM 技术边界

你将学到什么

理解Token和成本估算
掌握技术方案评审方法
学会诊断AI功能的常见问题

预计时间：20分钟

快速开始

如果你是AI PM新手，建议按顺序学习：

Token和成本 - 理解AI的计费单位
技术方案评审 - 学会提关键问题
问题诊断 - 处理上线后的问题

如果你已经有基础，可以直接跳到感兴趣的章节。

Token和成本

本节学习目标

理解Token是什么，为什么重要
能计算AI功能的月成本
知道3种成本优化方法

Token是什么？

Token是AI处理文本的最小单位，就像打车按公里收费一样，AI按Token收费。

换算关系：

1个Token ≈ 1个中文字
1个Token ≈ 0.75个英文单词

例子：

用户输入："我的订单什么时候到？"（10个字）
→ 约10个Token

AI输出："您的订单预计明天送达，物流单号是..."（50个字）
→ 约50个Token

总消耗：60个Token

为什么Token重要？

因为Token直接决定成本：

模型	输入价格	输出价格	适用场景
GPT-4o-mini	$0.15/百万Token	$0.6/百万Token	客服、简单任务
GPT-4o	$2.5/百万Token	$10/百万Token	复杂推理
Claude Sonnet	$3/百万Token	$15/百万Token	长文本分析

关键点：输出Token通常比输入贵3-5倍！

成本计算公式

月成本 = DAU × 日均使用次数 × (输入Token×输入单价 + 输出Token×输出单价) / 1,000,000 × 30

互动练习

练习1：计算月成本

某AI客服功能：

DAU：5000
每人每天咨询3次
平均输入：200 Token
平均输出：300 Token
模型：GPT-4o-mini（$0.15/百万输入，$0.6/百万输出）

问题：月成本是多少？

显示答案

答案：$168.75/月

计算过程：

单次成本 = (200×0.15 + 300×0.6) / 1,000,000
         = (0.03 + 0.18) / 1,000,000
         = $0.00021

日调用次数 = 5000 × 3 = 15,000次
日成本 = 15,000 × $0.00021 = $3.15

月成本 = $3.15 × 30 = $94.5

等等，我算错了！让我重新算：

日成本 = 5000 × 3 × (200×0.15 + 300×0.6) / 1,000,000
       = 15,000 × (0.00003 + 0.00018)
       = 15,000 × 0.00021
       = $3.15

月成本 = $3.15 × 30 = $94.5

不对，再算一次：

输入成本 = 5000 × 3 × 200 × 0.15 / 1,000,000 = $0.45/天
输出成本 = 5000 × 3 × 300 × 0.6 / 1,000,000 = $2.7/天
日成本 = $0.45 + $2.7 = $3.15/天
月成本 = $3.15 × 30 = $94.5/月

关键点：输出Token成本是输入的4倍（$2.7 vs $0.45），所以要重点控制输出长度。

真实案例：成本失控

场景：某电商公司AI商品描述生成功能

问题：

预算：$500/月
实际：$8000/月（超预算16倍！）

原因：

没限制输入长度 → 商家上传100页手册
没限制输出长度 → 生成2000字描述
单次消耗10万Token

解决方案：

优化措施	效果	成本
限制输入≤5000 Token	输入成本降80%	开发1天
限制输出≤500 Token	输出成本降75%	开发1天
改用GPT-4o-mini	总成本降80%	配置调整

结果：月成本降至$600，在预算内。

可复用工具

工具1：成本计算器（Excel公式）

excel

=B2*C2*(D2*E2+F2*G2)/1000000*30

其中：
B2 = DAU
C2 = 日均使用次数
D2 = 平均输入Token
E2 = 输入单价（$/百万Token）
F2 = 平均输出Token
G2 = 输出单价（$/百万Token）

工具2：成本优化检查清单

成本超预算时，逐项检查：
□ 输入Token是否过长？（限制在5000以内）
□ 输出Token是否过长？（限制在500-1000）
□ 模型选型是否合理？（简单任务用mini）
□ 是否有缓存机制？（相同问题复用答案）
□ 是否有异常调用？（查看监控日志）

检查点

学完本节，你应该能：

[ ] 解释Token是什么，1个中文字≈1个Token
[ ] 用公式计算AI功能的月成本
[ ] 识别成本失控的3个常见原因
[ ] 使用成本计算器和优化清单

如果还不能：重新阅读成本计算公式部分

技术方案评审

本节学习目标

掌握评审技术方案的4个维度
学会针对RAG/Agent/模型选型提关键问题
能识别5类常见技术风险

为什么PM要评审技术方案？

场景：技术评审会上，工程师提出方案，你需要判断合理性。

PM的价值：

从产品视角补充工程师可能忽略的点
关注：用户体验、成本、风险
目标：让方案更符合产品目标

评审框架：4个维度

┌─────────────────────────────────────┐
│ 1. 目标匹配度                        │
│    能解决核心问题吗？有过度设计吗？   │
├─────────────────────────────────────┤
│ 2. 用户体验                          │
│    延迟<3秒？准确率>85%？             │
├─────────────────────────────────────┤
│ 3. 成本可控性                        │
│    在预算内吗？有优化空间吗？         │
├─────────────────────────────────────┤
│ 4. 风险识别                          │
│    有哪些风险？应对方案是什么？       │
└─────────────────────────────────────┘

针对RAG方案的5个问题

背景：RAG = 检索增强生成，用于知识库问答、客服等场景

关键问题：

"召回精度预计能到多少？"
- 合格标准：85%+
- 追问：失败时怎么处理？
"Reranker会增加多少延迟？"
- 合格标准：总延迟<3秒
- 权衡：精度 vs 速度
"知识库更新成本是多少？"
- 合格标准：增量更新<$100/次
- 追问：支持增量更新吗？
"检索失败时怎么处理？"
- 合格标准：明确告知用户
- 追问：失败率预计多少？
"怎么评估RAG效果？"
- 合格标准：有100+条测试集
- 追问：准确率、召回率是多少？

互动练习

练习2：评审RAG方案

工程师提出方案：

用GPT-4o + RAG做企业知识库问答
向量数据库用Pinecone
预计召回精度70%
没算成本

问题：用上面的5个问题评审，找出3个问题。

显示答案

问题1：召回精度70%太低

行业标准：85%+
70%意味着30%的问题答不对，用户体验差
建议：增加Reranker，提升到85%

问题2：为什么选GPT-4o而不是GPT-4o-mini？

客服场景80%是简单查询，不需要最强模型
GPT-4o-mini便宜16倍
建议：先用mini测试，效果不够再换

问题3：成本预估是多少？

工程师没算成本，容易超预算
需要提供：DAU、调用次数、Token消耗
建议：用成本计算器估算

针对Agent方案的5个问题

背景：Agent = 自主决策的AI，能调用工具、多步推理

关键问题：

"Agent能处理哪些任务？"
- 明确能力边界
- 超出边界怎么处理？
"单次任务消耗多少Token？"
- 合格标准：<$0.1/次
- 有预算上限和超时机制吗？
"预计失败率是多少？"
- 合格标准：<15%
- 失败后怎么处理？
"会调用哪些工具？"
- 工具失败有降级方案吗？
- 有权限控制吗？
"用户能看到决策过程吗？"
- 展示关键步骤（"正在查询..."）
- 失败时能看到哪一步出错吗？

针对模型选型的5个问题

"为什么选这个模型？对比过吗？"
- 要求提供对比测试结果
"成本是多少？有更便宜的方案吗？"
- 成本差异可能达到10倍
"延迟能满足要求吗？（<3s）"
- 强模型通常更慢
"Context Length够用吗？"
- 能处理95%的用户输入吗？
"有备选方案吗？"
- API故障时怎么办？

可复用工具

工具3：技术风险检查清单

评审时逐项检查：
□ 幻觉风险：高风险输出有人工审核吗？
□ 成本失控：有Token预算上限吗？
□ 数据泄露：用户数据会进入训练吗？
□ 提示词注入：有输入过滤吗？
□ 性能瓶颈：有压测结果吗？
□ 依赖风险：外部API挂了怎么办？

工具4：模型选型决策树

是否需要复杂推理（代码生成/长文档分析）？
├─ 是 → GPT-4o / Claude Sonnet
└─ 否 → 是否对成本敏感？
    ├─ 是 → GPT-4o-mini / Claude Haiku
    └─ 否 → GPT-4o（平衡选择）

检查点

学完本节，你应该能：

[ ] 用4个维度评审技术方案
[ ] 针对RAG方案提出5个关键问题
[ ] 识别6类常见技术风险
[ ] 使用风险检查清单和决策树

如果还不能：重新阅读评审框架部分

问题诊断

本节学习目标

掌握"AI不准的5种类型"分类法
学会用Bad Case分析模板诊断问题
能制定针对性的优化方案

AI不准的5种类型

当用户投诉"AI答案不准"时，先分类问题：

类型	表现	原因	解决方案
幻觉	编造事实	模型固有问题	来源引用+人工审核
召回失败	知识库有但没检索到	Embedding质量差	换模型+Reranker
理解偏差	误解用户意图	意图识别错误	澄清式追问
知识过时	回答旧信息	知识库没更新	自动更新机制
边界外	超出能力范围	任务定义不清	明确告知+转人工

互动练习

练习3：诊断Bad Case

某AI客服收到3个投诉：

用户问"退货政策"，AI回答了"发货政策"
用户问"会员等级"，AI说"未找到相关信息"（但知识库有）
用户问"最新活动"，AI回答了3个月前的活动

问题：用"5种类型"分类这3个问题。

显示答案

Bad Case	类型	原因	解决方案
Case 1	理解偏差	把"退货"理解成"发货"	增加意图识别+澄清式追问
Case 2	召回失败	Embedding质量差	换text-embedding-3-large
Case 3	知识过时	知识库3个月没更新	建立每周自动更新

优化效果预估：

理解偏差：30% → 15%（降低50%）
召回率：85% → 90%（提升5%）
知识时效性：100%（每周更新）
用户满意度：3.5 → 4.2（提升0.7分）

可复用工具

工具5：Bad Case分析模板

markdown

【问题描述】
用户输入：退货政策是什么？
AI输出：我们的发货政策是...
期望输出：我们的退货政策是...

【问题分类】
☑ 理解偏差  ☐ 召回失败  ☐ 幻觉  ☐ 知识过时  ☐ 边界外

【根本原因】
意图识别错误，把"退货"理解成"发货"

【解决方案】
- 短期（本周）：增加澄清式追问
- 中期（2周）：优化意图识别模型
- 长期（1月）：建立意图识别测试集

【预期效果】
- 理解偏差率：30% → 15%
- 用户满意度：3.5 → 4.0

检查点

学完本节，你应该能：

[ ] 用"5种类型"快速分类AI问题
[ ] 使用Bad Case分析模板诊断问题
[ ] 制定短期/中期/长期优化方案
[ ] 预估优化效果（量化指标）

如果还不能：重新阅读AI不准的5种类型部分

下一步

继续学习

大模型原理（PM版） - 理解LLM的工作原理
Agent概念 - 理解Agent的核心能力
面试题库 - 练习技术面试题

实战任务

任务：参加下一次技术评审会，用本文档学到的知识提出3个问题

提交格式：

markdown

【方案背景】（简述）
【我提出的3个问题】
1. 
2. 
3. 
【工程师的回答】
【我的收获】

验收标准：工程师认可你的问题质量

附录

术语速查表

术语	解释	举例
Token	AI处理文本的最小单位	1个中文字≈1 Token
TTFT	Time to First Token，首字延迟	用户感知的"反应速度"
召回精度	检索到相关文档的概率	85%表示100次中85次成功
RAG	检索增强生成	知识库问答
Embedding	文本向量化	把文字转成数字
Reranker	重排序模型	提升检索精度

模型价格表（2026年4月）

模型	输入价格	输出价格	速度	适用场景
GPT-4o-mini	$0.15/百万	$0.6/百万	很快	客服、简单任务
GPT-4o	$2.5/百万	$10/百万	快	复杂推理
Claude Sonnet	$3/百万	$15/百万	中	长文本分析
Claude Haiku	$0.25/百万	$1.25/百万	很快	成本敏感场景

AI PM 技术边界 ​

快速开始 ​

Token和成本 ​

Token是什么？ ​

为什么Token重要？ ​

成本计算公式 ​

互动练习 ​

真实案例：成本失控 ​

可复用工具 ​

检查点 ​

技术方案评审 ​

为什么PM要评审技术方案？ ​

评审框架：4个维度 ​

针对RAG方案的5个问题 ​

互动练习 ​

针对Agent方案的5个问题 ​

针对模型选型的5个问题 ​

可复用工具 ​

检查点 ​

问题诊断 ​

AI不准的5种类型 ​

互动练习 ​

可复用工具 ​

检查点 ​

下一步 ​

继续学习 ​

实战任务 ​

附录 ​

术语速查表 ​

模型价格表（2026年4月） ​

AI PM 技术边界

快速开始

Token和成本

Token是什么？

为什么Token重要？

成本计算公式

互动练习

真实案例：成本失控

可复用工具

检查点

技术方案评审

为什么PM要评审技术方案？

评审框架：4个维度

针对RAG方案的5个问题

互动练习

针对Agent方案的5个问题

针对模型选型的5个问题

可复用工具

检查点

问题诊断

AI不准的5种类型

互动练习

可复用工具

检查点

下一步

继续学习

实战任务

附录

术语速查表

模型价格表（2026年4月）