AI 产品指标体系
你将学到什么
- 三层指标体系结构(模型层 / 产品层 / 业务层)
- 每层的核心指标定义、衡量方法和健康值参考
- 4 种指标设计的常见陷阱(含 Goodhart 定律)
- 如何设计一个 AI 产品 Dashboard
为什么重要:最常见的错误是只看准确率,忽略用户是否真的在用。不懂指标体系,就不知道产品好不好——也就无法做出有依据的优先级决策。
三层指标体系
业务层指标(最终目标)
↑ 被以下指标驱动
产品层指标(用户行为)
↑ 被以下指标驱动
模型层指标(技术质量)三层必须同时看——只看模型指标会忽略用户体验,只看业务指标找不到改进方向。
常见误区
很多产品"模型评估 95 分,用户满意度 60 分"。原因是模型层指标和用户真实需求不一致——比如准确率高,但回答太长用户不愿读完。三层指标体系能帮你发现这种断层。
第一层:模型层指标
技术团队关注,PM 需要能读懂并与工程师对齐。
通用 LLM 指标
| 指标 | 含义 | 参考值 |
|---|---|---|
| TTFT(首字时间) | 从请求到第一个 Token 输出的时间 | P99 < 3 秒 |
| 完整响应时间 | 全部输出完成的时间 | P99 < 30 秒 |
| Token/秒 | 输出速度 | 越高用户感知越流畅 |
| 成功率 | 请求没有报错返回的比例 | ≥ 99.9% |
| 成本/请求 | 平均每次调用的 Token 费用 | 监控趋势,防成本失控 |
RAG 专项指标
| 指标 | 含义 | 参考值 |
|---|---|---|
| 召回率(Recall) | 相关文档被检索到的比例 | > 80% |
| 精确率(Precision) | 检索到的文档中真正相关的比例 | > 70% |
| 答案忠实度(Faithfulness) | 回答是否基于检索内容,没有幻觉 | > 85% |
| 答案相关性(Answer Relevance) | 回答是否切题 | > 80% |
工具:RAGAS 框架可自动计算 RAG 四项指标。
Agent 专项指标
| 指标 | 含义 |
|---|---|
| 任务完成率 | Agent 成功完成目标任务的比例 |
| 步骤效率 | 完成任务平均需要几步(越少越好) |
| 工具调用准确率 | 正确调用工具的比例(vs 调错/多调) |
| 需要人工干预的比例 | Agent 主动请求确认的频率 |
第二层:产品层指标
用户行为数据,最能反映 AI 功能的真实价值。
核心使用指标
| 指标 | 含义 | 监控意义 |
|---|---|---|
| 功能渗透率 | 活跃用户中使用 AI 功能的比例 | 是否真正被用上 |
| 使用频率 | 用户平均每周使用几次 | 是否形成习惯 |
| 会话完成率 | 开始了 AI 交互并完成目标的比例 | 漏斗健康度 |
| 重试率 | 用户对同一问题重新提问的比例 | 首次回答质量 |
质量感知指标
| 指标 | 含义 | 采集方式 |
|---|---|---|
| 显式满意度(👍/👎) | 用户主动评价 | 每次输出后的反馈按钮 |
| 采用率 | AI 输出被直接使用(未修改)的比例 | 行为埋点 |
| 修改率 | 输出被用户修改后才使用的比例 | 行为埋点 |
| 放弃率 | 看了 AI 输出后没有任何操作就离开 | 行为埋点 |
黄金指标
采用率 > 修改率 > 放弃率。采用率越高,说明 AI 越"猜中"用户的心。如果修改率很高但采用率低,说明 AI 的方向对但细节差;如果放弃率高,说明 AI 的输出对用户没有价值。
留存与粘性
| 指标 | 含义 |
|---|---|
| D7/D30 留存 | 首次使用 AI 功能后 7/30 天仍活跃 |
| 功能依赖度 | 用了 AI 功能的用户,关闭后的流失率 |
| 使用深度 | 人均 AI 调用次数随时间的变化趋势 |
第三层:业务层指标
最终和商业目标挂钩。
To C 产品
| 产品类型 | 北极星指标 | 辅助指标 |
|---|---|---|
| AI 助手(订阅) | 月活付费用户数 | 续费率、功能渗透率 |
| AI 内容创作 | 内容发布量 | 采用率、分享率 |
| AI 搜索 | 搜索完成率 | 点击来源、回访率 |
To B 产品
| 产品类型 | 北极星指标 | 辅助指标 |
|---|---|---|
| AI 客服 | 人工转接率降低 | CSAT、解决率 |
| AI 知识库 | 信息查找效率(时间节省) | 搜索成功率、用户满意度 |
| AI 销售工具 | 销售效率提升(人均单量) | 使用率、成单周期 |
互动练习:设计指标体系
场景:你在做一个"AI 帮用户写工作周报"的功能。
请设计三层指标体系,每层至少 2 个指标。
查看参考答案
模型层指标:
- 完整响应时间 P99 < 10 秒(用户可接受的等待上限)
- API 成功率 ≥ 99.9%
产品层指标:
- 采用率:生成的周报被直接发送(未修改)的比例(目标 > 30%)
- 修改率:生成后用户编辑了内容再发送(目标 40-50%,代表"有价值但需微调")
- 重试率:用户点击"重新生成"的比例(目标 < 20%)
- 功能渗透率:每周有多少用户用了这个功能(目标 60%+ 的活跃用户)
业务层指标:
- 写报告耗时降低:对比使用前后,用户完成周报的平均时间
- 用户留存:使用 AI 周报功能的用户 D30 留存率 vs 未使用用户
4 种指标设计陷阱
陷阱 1:只看满意度评分,不看行为数据
用户点了 👍 不代表真的满意,可能是礼貌性点击。
行为数据(采用率/修改率)比评分更可信。
陷阱 2:把"使用量"当成"价值"
使用次数多不等于有价值——用户可能在反复重试,因为回答太差。
要同时看使用量和质量指标。
陷阱 3:Goodhart's Law(古德哈特定律)
当一个指标变成目标,它就不再是好指标。
案例:以"降低人工转接率"为唯一目标 → AI 开始强行回答不该回答的问题 → CSAT 下降。
解决方法:每个优化指标都要搭配护栏指标(guardrail metric)。优化人工转接率的同时,设置"CSAT 不得低于 4.0"的护栏。
陷阱 4:忽略成本指标
AI 产品的边际成本不是零,Token 费用随用量线性增长。
成本/价值比(ROI)是 AI 功能是否可持续的核心依据。
Dashboard 设计框架
一个好的 AI 产品 Dashboard 应该回答:
实时健康:
□ API 成功率是否正常?(≥99.9%)
□ P99 延迟是否在阈值内?
质量趋势:
□ 本周采用率 vs 上周
□ 显式满意度趋势
□ 重试率趋势
成本监控:
□ 日均 Token 消耗
□ 成本/活跃用户
□ 本月 API 支出预测
业务影响:
□ AI 功能渗透率
□ 使用 AI 的用户 vs 未用 AI 的用户留存对比检查点
在继续之前,确保你能回答:
- [ ] 能说出三层指标体系的结构,以及每层关注什么
- [ ] 能解释采用率、修改率、放弃率的区别和含义
- [ ] 能举例说明 Goodhart's Law 在 AI 产品中的风险
- [ ] 能为一个 AI 功能设计包含护栏指标的评估方案
- [ ] 能说出 AI 产品 Dashboard 应该包含哪四类指标