Skip to content

AI 产品指标体系

你将学到什么

  • 三层指标体系结构(模型层 / 产品层 / 业务层)
  • 每层的核心指标定义、衡量方法和健康值参考
  • 4 种指标设计的常见陷阱(含 Goodhart 定律)
  • 如何设计一个 AI 产品 Dashboard

为什么重要:最常见的错误是只看准确率,忽略用户是否真的在用。不懂指标体系,就不知道产品好不好——也就无法做出有依据的优先级决策。


三层指标体系

业务层指标(最终目标)
  ↑ 被以下指标驱动
产品层指标(用户行为)
  ↑ 被以下指标驱动
模型层指标(技术质量)

三层必须同时看——只看模型指标会忽略用户体验,只看业务指标找不到改进方向。

常见误区

很多产品"模型评估 95 分,用户满意度 60 分"。原因是模型层指标和用户真实需求不一致——比如准确率高,但回答太长用户不愿读完。三层指标体系能帮你发现这种断层。


第一层:模型层指标

技术团队关注,PM 需要能读懂并与工程师对齐。

通用 LLM 指标

指标含义参考值
TTFT(首字时间)从请求到第一个 Token 输出的时间P99 < 3 秒
完整响应时间全部输出完成的时间P99 < 30 秒
Token/秒输出速度越高用户感知越流畅
成功率请求没有报错返回的比例≥ 99.9%
成本/请求平均每次调用的 Token 费用监控趋势,防成本失控

RAG 专项指标

指标含义参考值
召回率(Recall)相关文档被检索到的比例> 80%
精确率(Precision)检索到的文档中真正相关的比例> 70%
答案忠实度(Faithfulness)回答是否基于检索内容,没有幻觉> 85%
答案相关性(Answer Relevance)回答是否切题> 80%

工具:RAGAS 框架可自动计算 RAG 四项指标。

Agent 专项指标

指标含义
任务完成率Agent 成功完成目标任务的比例
步骤效率完成任务平均需要几步(越少越好)
工具调用准确率正确调用工具的比例(vs 调错/多调)
需要人工干预的比例Agent 主动请求确认的频率

第二层:产品层指标

用户行为数据,最能反映 AI 功能的真实价值。

核心使用指标

指标含义监控意义
功能渗透率活跃用户中使用 AI 功能的比例是否真正被用上
使用频率用户平均每周使用几次是否形成习惯
会话完成率开始了 AI 交互并完成目标的比例漏斗健康度
重试率用户对同一问题重新提问的比例首次回答质量

质量感知指标

指标含义采集方式
显式满意度(👍/👎)用户主动评价每次输出后的反馈按钮
采用率AI 输出被直接使用(未修改)的比例行为埋点
修改率输出被用户修改后才使用的比例行为埋点
放弃率看了 AI 输出后没有任何操作就离开行为埋点

黄金指标

采用率 > 修改率 > 放弃率。采用率越高,说明 AI 越"猜中"用户的心。如果修改率很高但采用率低,说明 AI 的方向对但细节差;如果放弃率高,说明 AI 的输出对用户没有价值。

留存与粘性

指标含义
D7/D30 留存首次使用 AI 功能后 7/30 天仍活跃
功能依赖度用了 AI 功能的用户,关闭后的流失率
使用深度人均 AI 调用次数随时间的变化趋势

第三层:业务层指标

最终和商业目标挂钩。

To C 产品

产品类型北极星指标辅助指标
AI 助手(订阅)月活付费用户数续费率、功能渗透率
AI 内容创作内容发布量采用率、分享率
AI 搜索搜索完成率点击来源、回访率

To B 产品

产品类型北极星指标辅助指标
AI 客服人工转接率降低CSAT、解决率
AI 知识库信息查找效率(时间节省)搜索成功率、用户满意度
AI 销售工具销售效率提升(人均单量)使用率、成单周期

互动练习:设计指标体系

场景:你在做一个"AI 帮用户写工作周报"的功能。

请设计三层指标体系,每层至少 2 个指标。

查看参考答案

模型层指标

  • 完整响应时间 P99 < 10 秒(用户可接受的等待上限)
  • API 成功率 ≥ 99.9%

产品层指标

  • 采用率:生成的周报被直接发送(未修改)的比例(目标 > 30%)
  • 修改率:生成后用户编辑了内容再发送(目标 40-50%,代表"有价值但需微调")
  • 重试率:用户点击"重新生成"的比例(目标 < 20%)
  • 功能渗透率:每周有多少用户用了这个功能(目标 60%+ 的活跃用户)

业务层指标

  • 写报告耗时降低:对比使用前后,用户完成周报的平均时间
  • 用户留存:使用 AI 周报功能的用户 D30 留存率 vs 未使用用户

4 种指标设计陷阱

陷阱 1:只看满意度评分,不看行为数据

用户点了 👍 不代表真的满意,可能是礼貌性点击。

行为数据(采用率/修改率)比评分更可信。


陷阱 2:把"使用量"当成"价值"

使用次数多不等于有价值——用户可能在反复重试,因为回答太差。

要同时看使用量和质量指标。


陷阱 3:Goodhart's Law(古德哈特定律)

当一个指标变成目标,它就不再是好指标。

案例:以"降低人工转接率"为唯一目标 → AI 开始强行回答不该回答的问题 → CSAT 下降。

解决方法:每个优化指标都要搭配护栏指标(guardrail metric)。优化人工转接率的同时,设置"CSAT 不得低于 4.0"的护栏。


陷阱 4:忽略成本指标

AI 产品的边际成本不是零,Token 费用随用量线性增长。

成本/价值比(ROI)是 AI 功能是否可持续的核心依据。


Dashboard 设计框架

一个好的 AI 产品 Dashboard 应该回答:

实时健康:
  □ API 成功率是否正常?(≥99.9%)
  □ P99 延迟是否在阈值内?

质量趋势:
  □ 本周采用率 vs 上周
  □ 显式满意度趋势
  □ 重试率趋势

成本监控:
  □ 日均 Token 消耗
  □ 成本/活跃用户
  □ 本月 API 支出预测

业务影响:
  □ AI 功能渗透率
  □ 使用 AI 的用户 vs 未用 AI 的用户留存对比

检查点

在继续之前,确保你能回答:

  • [ ] 能说出三层指标体系的结构,以及每层关注什么
  • [ ] 能解释采用率、修改率、放弃率的区别和含义
  • [ ] 能举例说明 Goodhart's Law 在 AI 产品中的风险
  • [ ] 能为一个 AI 功能设计包含护栏指标的评估方案
  • [ ] 能说出 AI 产品 Dashboard 应该包含哪四类指标

延伸阅读

专为 AI 产品经理打造