AI PM 技术边界
你将学到什么
- 理解Token和成本估算
- 掌握技术方案评审方法
- 学会诊断AI功能的常见问题
预计时间:20分钟
快速开始
如果你是AI PM新手,建议按顺序学习:
如果你已经有基础,可以直接跳到感兴趣的章节。
Token和成本
本节学习目标
- 理解Token是什么,为什么重要
- 能计算AI功能的月成本
- 知道3种成本优化方法
Token是什么?
Token是AI处理文本的最小单位,就像打车按公里收费一样,AI按Token收费。
换算关系:
- 1个Token ≈ 1个中文字
- 1个Token ≈ 0.75个英文单词
例子:
用户输入:"我的订单什么时候到?"(10个字)
→ 约10个Token
AI输出:"您的订单预计明天送达,物流单号是..."(50个字)
→ 约50个Token
总消耗:60个Token为什么Token重要?
因为Token直接决定成本:
| 模型 | 输入价格 | 输出价格 | 适用场景 |
|---|---|---|---|
| GPT-4o-mini | $0.15/百万Token | $0.6/百万Token | 客服、简单任务 |
| GPT-4o | $2.5/百万Token | $10/百万Token | 复杂推理 |
| Claude Sonnet | $3/百万Token | $15/百万Token | 长文本分析 |
关键点:输出Token通常比输入贵3-5倍!
成本计算公式
月成本 = DAU × 日均使用次数 × (输入Token×输入单价 + 输出Token×输出单价) / 1,000,000 × 30互动练习
练习1:计算月成本
某AI客服功能:
- DAU:5000
- 每人每天咨询3次
- 平均输入:200 Token
- 平均输出:300 Token
- 模型:GPT-4o-mini($0.15/百万输入,$0.6/百万输出)
问题:月成本是多少?
显示答案
答案:$168.75/月
计算过程:
单次成本 = (200×0.15 + 300×0.6) / 1,000,000
= (0.03 + 0.18) / 1,000,000
= $0.00021
日调用次数 = 5000 × 3 = 15,000次
日成本 = 15,000 × $0.00021 = $3.15
月成本 = $3.15 × 30 = $94.5等等,我算错了!让我重新算:
日成本 = 5000 × 3 × (200×0.15 + 300×0.6) / 1,000,000
= 15,000 × (0.00003 + 0.00018)
= 15,000 × 0.00021
= $3.15
月成本 = $3.15 × 30 = $94.5不对,再算一次:
输入成本 = 5000 × 3 × 200 × 0.15 / 1,000,000 = $0.45/天
输出成本 = 5000 × 3 × 300 × 0.6 / 1,000,000 = $2.7/天
日成本 = $0.45 + $2.7 = $3.15/天
月成本 = $3.15 × 30 = $94.5/月关键点:输出Token成本是输入的4倍($2.7 vs $0.45),所以要重点控制输出长度。
真实案例:成本失控
场景:某电商公司AI商品描述生成功能
问题:
- 预算:$500/月
- 实际:$8000/月(超预算16倍!)
原因:
- 没限制输入长度 → 商家上传100页手册
- 没限制输出长度 → 生成2000字描述
- 单次消耗10万Token
解决方案:
| 优化措施 | 效果 | 成本 |
|---|---|---|
| 限制输入≤5000 Token | 输入成本降80% | 开发1天 |
| 限制输出≤500 Token | 输出成本降75% | 开发1天 |
| 改用GPT-4o-mini | 总成本降80% | 配置调整 |
结果:月成本降至$600,在预算内。
可复用工具
工具1:成本计算器(Excel公式)
=B2*C2*(D2*E2+F2*G2)/1000000*30
其中:
B2 = DAU
C2 = 日均使用次数
D2 = 平均输入Token
E2 = 输入单价($/百万Token)
F2 = 平均输出Token
G2 = 输出单价($/百万Token)工具2:成本优化检查清单
成本超预算时,逐项检查:
□ 输入Token是否过长?(限制在5000以内)
□ 输出Token是否过长?(限制在500-1000)
□ 模型选型是否合理?(简单任务用mini)
□ 是否有缓存机制?(相同问题复用答案)
□ 是否有异常调用?(查看监控日志)检查点
学完本节,你应该能:
- [ ] 解释Token是什么,1个中文字≈1个Token
- [ ] 用公式计算AI功能的月成本
- [ ] 识别成本失控的3个常见原因
- [ ] 使用成本计算器和优化清单
如果还不能:重新阅读成本计算公式部分
技术方案评审
本节学习目标
- 掌握评审技术方案的4个维度
- 学会针对RAG/Agent/模型选型提关键问题
- 能识别5类常见技术风险
为什么PM要评审技术方案?
场景:技术评审会上,工程师提出方案,你需要判断合理性。
PM的价值:
- 从产品视角补充工程师可能忽略的点
- 关注:用户体验、成本、风险
- 目标:让方案更符合产品目标
评审框架:4个维度
┌─────────────────────────────────────┐
│ 1. 目标匹配度 │
│ 能解决核心问题吗?有过度设计吗? │
├─────────────────────────────────────┤
│ 2. 用户体验 │
│ 延迟<3秒?准确率>85%? │
├─────────────────────────────────────┤
│ 3. 成本可控性 │
│ 在预算内吗?有优化空间吗? │
├─────────────────────────────────────┤
│ 4. 风险识别 │
│ 有哪些风险?应对方案是什么? │
└─────────────────────────────────────┘针对RAG方案的5个问题
背景:RAG = 检索增强生成,用于知识库问答、客服等场景
关键问题:
"召回精度预计能到多少?"
- 合格标准:85%+
- 追问:失败时怎么处理?
"Reranker会增加多少延迟?"
- 合格标准:总延迟<3秒
- 权衡:精度 vs 速度
"知识库更新成本是多少?"
- 合格标准:增量更新<$100/次
- 追问:支持增量更新吗?
"检索失败时怎么处理?"
- 合格标准:明确告知用户
- 追问:失败率预计多少?
"怎么评估RAG效果?"
- 合格标准:有100+条测试集
- 追问:准确率、召回率是多少?
互动练习
练习2:评审RAG方案
工程师提出方案:
- 用GPT-4o + RAG做企业知识库问答
- 向量数据库用Pinecone
- 预计召回精度70%
- 没算成本
问题:用上面的5个问题评审,找出3个问题。
显示答案
问题1:召回精度70%太低
- 行业标准:85%+
- 70%意味着30%的问题答不对,用户体验差
- 建议:增加Reranker,提升到85%
问题2:为什么选GPT-4o而不是GPT-4o-mini?
- 客服场景80%是简单查询,不需要最强模型
- GPT-4o-mini便宜16倍
- 建议:先用mini测试,效果不够再换
问题3:成本预估是多少?
- 工程师没算成本,容易超预算
- 需要提供:DAU、调用次数、Token消耗
- 建议:用成本计算器估算
针对Agent方案的5个问题
背景:Agent = 自主决策的AI,能调用工具、多步推理
关键问题:
"Agent能处理哪些任务?"
- 明确能力边界
- 超出边界怎么处理?
"单次任务消耗多少Token?"
- 合格标准:<$0.1/次
- 有预算上限和超时机制吗?
"预计失败率是多少?"
- 合格标准:<15%
- 失败后怎么处理?
"会调用哪些工具?"
- 工具失败有降级方案吗?
- 有权限控制吗?
"用户能看到决策过程吗?"
- 展示关键步骤("正在查询...")
- 失败时能看到哪一步出错吗?
针对模型选型的5个问题
"为什么选这个模型?对比过吗?"
- 要求提供对比测试结果
"成本是多少?有更便宜的方案吗?"
- 成本差异可能达到10倍
"延迟能满足要求吗?(<3s)"
- 强模型通常更慢
"Context Length够用吗?"
- 能处理95%的用户输入吗?
"有备选方案吗?"
- API故障时怎么办?
可复用工具
工具3:技术风险检查清单
评审时逐项检查:
□ 幻觉风险:高风险输出有人工审核吗?
□ 成本失控:有Token预算上限吗?
□ 数据泄露:用户数据会进入训练吗?
□ 提示词注入:有输入过滤吗?
□ 性能瓶颈:有压测结果吗?
□ 依赖风险:外部API挂了怎么办?工具4:模型选型决策树
是否需要复杂推理(代码生成/长文档分析)?
├─ 是 → GPT-4o / Claude Sonnet
└─ 否 → 是否对成本敏感?
├─ 是 → GPT-4o-mini / Claude Haiku
└─ 否 → GPT-4o(平衡选择)检查点
问题诊断
本节学习目标
- 掌握"AI不准的5种类型"分类法
- 学会用Bad Case分析模板诊断问题
- 能制定针对性的优化方案
AI不准的5种类型
当用户投诉"AI答案不准"时,先分类问题:
| 类型 | 表现 | 原因 | 解决方案 |
|---|---|---|---|
| 幻觉 | 编造事实 | 模型固有问题 | 来源引用+人工审核 |
| 召回失败 | 知识库有但没检索到 | Embedding质量差 | 换模型+Reranker |
| 理解偏差 | 误解用户意图 | 意图识别错误 | 澄清式追问 |
| 知识过时 | 回答旧信息 | 知识库没更新 | 自动更新机制 |
| 边界外 | 超出能力范围 | 任务定义不清 | 明确告知+转人工 |
互动练习
练习3:诊断Bad Case
某AI客服收到3个投诉:
- 用户问"退货政策",AI回答了"发货政策"
- 用户问"会员等级",AI说"未找到相关信息"(但知识库有)
- 用户问"最新活动",AI回答了3个月前的活动
问题:用"5种类型"分类这3个问题。
显示答案
| Bad Case | 类型 | 原因 | 解决方案 |
|---|---|---|---|
| Case 1 | 理解偏差 | 把"退货"理解成"发货" | 增加意图识别+澄清式追问 |
| Case 2 | 召回失败 | Embedding质量差 | 换text-embedding-3-large |
| Case 3 | 知识过时 | 知识库3个月没更新 | 建立每周自动更新 |
优化效果预估:
- 理解偏差:30% → 15%(降低50%)
- 召回率:85% → 90%(提升5%)
- 知识时效性:100%(每周更新)
- 用户满意度:3.5 → 4.2(提升0.7分)
可复用工具
工具5:Bad Case分析模板
【问题描述】
用户输入:退货政策是什么?
AI输出:我们的发货政策是...
期望输出:我们的退货政策是...
【问题分类】
☑ 理解偏差 ☐ 召回失败 ☐ 幻觉 ☐ 知识过时 ☐ 边界外
【根本原因】
意图识别错误,把"退货"理解成"发货"
【解决方案】
- 短期(本周):增加澄清式追问
- 中期(2周):优化意图识别模型
- 长期(1月):建立意图识别测试集
【预期效果】
- 理解偏差率:30% → 15%
- 用户满意度:3.5 → 4.0检查点
学完本节,你应该能:
- [ ] 用"5种类型"快速分类AI问题
- [ ] 使用Bad Case分析模板诊断问题
- [ ] 制定短期/中期/长期优化方案
- [ ] 预估优化效果(量化指标)
如果还不能:重新阅读AI不准的5种类型部分
下一步
继续学习
- 大模型原理(PM版) - 理解LLM的工作原理
- Agent概念 - 理解Agent的核心能力
- 面试题库 - 练习技术面试题
实战任务
任务:参加下一次技术评审会,用本文档学到的知识提出3个问题
提交格式:
【方案背景】(简述)
【我提出的3个问题】
1.
2.
3.
【工程师的回答】
【我的收获】验收标准:工程师认可你的问题质量
附录
术语速查表
| 术语 | 解释 | 举例 |
|---|---|---|
| Token | AI处理文本的最小单位 | 1个中文字≈1 Token |
| TTFT | Time to First Token,首字延迟 | 用户感知的"反应速度" |
| 召回精度 | 检索到相关文档的概率 | 85%表示100次中85次成功 |
| RAG | 检索增强生成 | 知识库问答 |
| Embedding | 文本向量化 | 把文字转成数字 |
| Reranker | 重排序模型 | 提升检索精度 |
模型价格表(2026年4月)
| 模型 | 输入价格 | 输出价格 | 速度 | 适用场景 |
|---|---|---|---|---|
| GPT-4o-mini | $0.15/百万 | $0.6/百万 | 很快 | 客服、简单任务 |
| GPT-4o | $2.5/百万 | $10/百万 | 快 | 复杂推理 |
| Claude Sonnet | $3/百万 | $15/百万 | 中 | 长文本分析 |
| Claude Haiku | $0.25/百万 | $1.25/百万 | 很快 | 成本敏感场景 |