Skip to content

AI PM 技术边界

你将学到什么

  • 理解Token和成本估算
  • 掌握技术方案评审方法
  • 学会诊断AI功能的常见问题

预计时间:20分钟


快速开始

如果你是AI PM新手,建议按顺序学习:

  1. Token和成本 - 理解AI的计费单位
  2. 技术方案评审 - 学会提关键问题
  3. 问题诊断 - 处理上线后的问题

如果你已经有基础,可以直接跳到感兴趣的章节。


Token和成本

本节学习目标

  • 理解Token是什么,为什么重要
  • 能计算AI功能的月成本
  • 知道3种成本优化方法

Token是什么?

Token是AI处理文本的最小单位,就像打车按公里收费一样,AI按Token收费。

换算关系

  • 1个Token ≈ 1个中文字
  • 1个Token ≈ 0.75个英文单词

例子

用户输入:"我的订单什么时候到?"(10个字)
→ 约10个Token

AI输出:"您的订单预计明天送达,物流单号是..."(50个字)
→ 约50个Token

总消耗:60个Token

为什么Token重要?

因为Token直接决定成本:

模型输入价格输出价格适用场景
GPT-4o-mini$0.15/百万Token$0.6/百万Token客服、简单任务
GPT-4o$2.5/百万Token$10/百万Token复杂推理
Claude Sonnet$3/百万Token$15/百万Token长文本分析

关键点:输出Token通常比输入贵3-5倍!


成本计算公式

月成本 = DAU × 日均使用次数 × (输入Token×输入单价 + 输出Token×输出单价) / 1,000,000 × 30

互动练习

练习1:计算月成本

某AI客服功能:

  • DAU:5000
  • 每人每天咨询3次
  • 平均输入:200 Token
  • 平均输出:300 Token
  • 模型:GPT-4o-mini($0.15/百万输入,$0.6/百万输出)

问题:月成本是多少?

显示答案

答案:$168.75/月

计算过程

单次成本 = (200×0.15 + 300×0.6) / 1,000,000
         = (0.03 + 0.18) / 1,000,000
         = $0.00021

日调用次数 = 5000 × 3 = 15,000次
日成本 = 15,000 × $0.00021 = $3.15

月成本 = $3.15 × 30 = $94.5

等等,我算错了!让我重新算:

日成本 = 5000 × 3 × (200×0.15 + 300×0.6) / 1,000,000
       = 15,000 × (0.00003 + 0.00018)
       = 15,000 × 0.00021
       = $3.15

月成本 = $3.15 × 30 = $94.5

不对,再算一次:

输入成本 = 5000 × 3 × 200 × 0.15 / 1,000,000 = $0.45/天
输出成本 = 5000 × 3 × 300 × 0.6 / 1,000,000 = $2.7/天
日成本 = $0.45 + $2.7 = $3.15/天
月成本 = $3.15 × 30 = $94.5/月

关键点:输出Token成本是输入的4倍($2.7 vs $0.45),所以要重点控制输出长度。


真实案例:成本失控

场景:某电商公司AI商品描述生成功能

问题

  • 预算:$500/月
  • 实际:$8000/月(超预算16倍!)

原因

  1. 没限制输入长度 → 商家上传100页手册
  2. 没限制输出长度 → 生成2000字描述
  3. 单次消耗10万Token

解决方案

优化措施效果成本
限制输入≤5000 Token输入成本降80%开发1天
限制输出≤500 Token输出成本降75%开发1天
改用GPT-4o-mini总成本降80%配置调整

结果:月成本降至$600,在预算内。


可复用工具

工具1:成本计算器(Excel公式)

excel
=B2*C2*(D2*E2+F2*G2)/1000000*30

其中:
B2 = DAU
C2 = 日均使用次数
D2 = 平均输入Token
E2 = 输入单价($/百万Token)
F2 = 平均输出Token
G2 = 输出单价($/百万Token)

工具2:成本优化检查清单

成本超预算时,逐项检查:
□ 输入Token是否过长?(限制在5000以内)
□ 输出Token是否过长?(限制在500-1000)
□ 模型选型是否合理?(简单任务用mini)
□ 是否有缓存机制?(相同问题复用答案)
□ 是否有异常调用?(查看监控日志)

检查点

学完本节,你应该能:

  • [ ] 解释Token是什么,1个中文字≈1个Token
  • [ ] 用公式计算AI功能的月成本
  • [ ] 识别成本失控的3个常见原因
  • [ ] 使用成本计算器和优化清单

如果还不能:重新阅读成本计算公式部分


技术方案评审

本节学习目标

  • 掌握评审技术方案的4个维度
  • 学会针对RAG/Agent/模型选型提关键问题
  • 能识别5类常见技术风险

为什么PM要评审技术方案?

场景:技术评审会上,工程师提出方案,你需要判断合理性。

PM的价值

  • 从产品视角补充工程师可能忽略的点
  • 关注:用户体验、成本、风险
  • 目标:让方案更符合产品目标

评审框架:4个维度

┌─────────────────────────────────────┐
│ 1. 目标匹配度                        │
│    能解决核心问题吗?有过度设计吗?   │
├─────────────────────────────────────┤
│ 2. 用户体验                          │
│    延迟<3秒?准确率>85%?             │
├─────────────────────────────────────┤
│ 3. 成本可控性                        │
│    在预算内吗?有优化空间吗?         │
├─────────────────────────────────────┤
│ 4. 风险识别                          │
│    有哪些风险?应对方案是什么?       │
└─────────────────────────────────────┘

针对RAG方案的5个问题

背景:RAG = 检索增强生成,用于知识库问答、客服等场景

关键问题

  1. "召回精度预计能到多少?"

    • 合格标准:85%+
    • 追问:失败时怎么处理?
  2. "Reranker会增加多少延迟?"

    • 合格标准:总延迟<3秒
    • 权衡:精度 vs 速度
  3. "知识库更新成本是多少?"

    • 合格标准:增量更新<$100/次
    • 追问:支持增量更新吗?
  4. "检索失败时怎么处理?"

    • 合格标准:明确告知用户
    • 追问:失败率预计多少?
  5. "怎么评估RAG效果?"

    • 合格标准:有100+条测试集
    • 追问:准确率、召回率是多少?

互动练习

练习2:评审RAG方案

工程师提出方案:

  • 用GPT-4o + RAG做企业知识库问答
  • 向量数据库用Pinecone
  • 预计召回精度70%
  • 没算成本

问题:用上面的5个问题评审,找出3个问题。

显示答案

问题1:召回精度70%太低

  • 行业标准:85%+
  • 70%意味着30%的问题答不对,用户体验差
  • 建议:增加Reranker,提升到85%

问题2:为什么选GPT-4o而不是GPT-4o-mini?

  • 客服场景80%是简单查询,不需要最强模型
  • GPT-4o-mini便宜16倍
  • 建议:先用mini测试,效果不够再换

问题3:成本预估是多少?

  • 工程师没算成本,容易超预算
  • 需要提供:DAU、调用次数、Token消耗
  • 建议:用成本计算器估算

针对Agent方案的5个问题

背景:Agent = 自主决策的AI,能调用工具、多步推理

关键问题

  1. "Agent能处理哪些任务?"

    • 明确能力边界
    • 超出边界怎么处理?
  2. "单次任务消耗多少Token?"

    • 合格标准:<$0.1/次
    • 有预算上限和超时机制吗?
  3. "预计失败率是多少?"

    • 合格标准:<15%
    • 失败后怎么处理?
  4. "会调用哪些工具?"

    • 工具失败有降级方案吗?
    • 有权限控制吗?
  5. "用户能看到决策过程吗?"

    • 展示关键步骤("正在查询...")
    • 失败时能看到哪一步出错吗?

针对模型选型的5个问题

  1. "为什么选这个模型?对比过吗?"

    • 要求提供对比测试结果
  2. "成本是多少?有更便宜的方案吗?"

    • 成本差异可能达到10倍
  3. "延迟能满足要求吗?(<3s)"

    • 强模型通常更慢
  4. "Context Length够用吗?"

    • 能处理95%的用户输入吗?
  5. "有备选方案吗?"

    • API故障时怎么办?

可复用工具

工具3:技术风险检查清单

评审时逐项检查:
□ 幻觉风险:高风险输出有人工审核吗?
□ 成本失控:有Token预算上限吗?
□ 数据泄露:用户数据会进入训练吗?
□ 提示词注入:有输入过滤吗?
□ 性能瓶颈:有压测结果吗?
□ 依赖风险:外部API挂了怎么办?

工具4:模型选型决策树

是否需要复杂推理(代码生成/长文档分析)?
├─ 是 → GPT-4o / Claude Sonnet
└─ 否 → 是否对成本敏感?
    ├─ 是 → GPT-4o-mini / Claude Haiku
    └─ 否 → GPT-4o(平衡选择)

检查点

学完本节,你应该能:

  • [ ] 用4个维度评审技术方案
  • [ ] 针对RAG方案提出5个关键问题
  • [ ] 识别6类常见技术风险
  • [ ] 使用风险检查清单和决策树

如果还不能:重新阅读评审框架部分


问题诊断

本节学习目标

  • 掌握"AI不准的5种类型"分类法
  • 学会用Bad Case分析模板诊断问题
  • 能制定针对性的优化方案

AI不准的5种类型

当用户投诉"AI答案不准"时,先分类问题:

类型表现原因解决方案
幻觉编造事实模型固有问题来源引用+人工审核
召回失败知识库有但没检索到Embedding质量差换模型+Reranker
理解偏差误解用户意图意图识别错误澄清式追问
知识过时回答旧信息知识库没更新自动更新机制
边界外超出能力范围任务定义不清明确告知+转人工

互动练习

练习3:诊断Bad Case

某AI客服收到3个投诉:

  1. 用户问"退货政策",AI回答了"发货政策"
  2. 用户问"会员等级",AI说"未找到相关信息"(但知识库有)
  3. 用户问"最新活动",AI回答了3个月前的活动

问题:用"5种类型"分类这3个问题。

显示答案
Bad Case类型原因解决方案
Case 1理解偏差把"退货"理解成"发货"增加意图识别+澄清式追问
Case 2召回失败Embedding质量差换text-embedding-3-large
Case 3知识过时知识库3个月没更新建立每周自动更新

优化效果预估

  • 理解偏差:30% → 15%(降低50%)
  • 召回率:85% → 90%(提升5%)
  • 知识时效性:100%(每周更新)
  • 用户满意度:3.5 → 4.2(提升0.7分)

可复用工具

工具5:Bad Case分析模板

markdown
【问题描述】
用户输入:退货政策是什么?
AI输出:我们的发货政策是...
期望输出:我们的退货政策是...

【问题分类】
☑ 理解偏差  ☐ 召回失败  ☐ 幻觉  ☐ 知识过时  ☐ 边界外

【根本原因】
意图识别错误,把"退货"理解成"发货"

【解决方案】
- 短期(本周):增加澄清式追问
- 中期(2周):优化意图识别模型
- 长期(1月):建立意图识别测试集

【预期效果】
- 理解偏差率:30% → 15%
- 用户满意度:3.5 → 4.0

检查点

学完本节,你应该能:

  • [ ] 用"5种类型"快速分类AI问题
  • [ ] 使用Bad Case分析模板诊断问题
  • [ ] 制定短期/中期/长期优化方案
  • [ ] 预估优化效果(量化指标)

如果还不能:重新阅读AI不准的5种类型部分


下一步

继续学习

实战任务

任务:参加下一次技术评审会,用本文档学到的知识提出3个问题

提交格式

markdown
【方案背景】(简述)
【我提出的3个问题】
1. 
2. 
3. 
【工程师的回答】
【我的收获】

验收标准:工程师认可你的问题质量


附录

术语速查表

术语解释举例
TokenAI处理文本的最小单位1个中文字≈1 Token
TTFTTime to First Token,首字延迟用户感知的"反应速度"
召回精度检索到相关文档的概率85%表示100次中85次成功
RAG检索增强生成知识库问答
Embedding文本向量化把文字转成数字
Reranker重排序模型提升检索精度

模型价格表(2026年4月)

模型输入价格输出价格速度适用场景
GPT-4o-mini$0.15/百万$0.6/百万很快客服、简单任务
GPT-4o$2.5/百万$10/百万复杂推理
Claude Sonnet$3/百万$15/百万长文本分析
Claude Haiku$0.25/百万$1.25/百万很快成本敏感场景

专为 AI 产品经理打造