AI 产品指标体系

你将学到什么

三层指标体系结构（模型层 / 产品层 / 业务层）
每层的核心指标定义、衡量方法和健康值参考
4 种指标设计的常见陷阱（含 Goodhart 定律）
如何设计一个 AI 产品 Dashboard

为什么重要：最常见的错误是只看准确率，忽略用户是否真的在用。不懂指标体系，就不知道产品好不好——也就无法做出有依据的优先级决策。

三层指标体系

业务层指标（最终目标）
  ↑ 被以下指标驱动
产品层指标（用户行为）
  ↑ 被以下指标驱动
模型层指标（技术质量）

三层必须同时看——只看模型指标会忽略用户体验，只看业务指标找不到改进方向。

常见误区

很多产品"模型评估 95 分，用户满意度 60 分"。原因是模型层指标和用户真实需求不一致——比如准确率高，但回答太长用户不愿读完。三层指标体系能帮你发现这种断层。

第一层：模型层指标

技术团队关注，PM 需要能读懂并与工程师对齐。

通用 LLM 指标

指标	含义	参考值
TTFT（首字时间）	从请求到第一个 Token 输出的时间	P99 < 3 秒
完整响应时间	全部输出完成的时间	P99 < 30 秒
Token/秒	输出速度	越高用户感知越流畅
成功率	请求没有报错返回的比例	≥ 99.9%
成本/请求	平均每次调用的 Token 费用	监控趋势，防成本失控

RAG 专项指标

指标	含义	参考值
召回率（Recall）	相关文档被检索到的比例	> 80%
精确率（Precision）	检索到的文档中真正相关的比例	> 70%
答案忠实度（Faithfulness）	回答是否基于检索内容，没有幻觉	> 85%
答案相关性（Answer Relevance）	回答是否切题	> 80%

工具：RAGAS 框架可自动计算 RAG 四项指标。

Agent 专项指标

指标	含义
任务完成率	Agent 成功完成目标任务的比例
步骤效率	完成任务平均需要几步（越少越好）
工具调用准确率	正确调用工具的比例（vs 调错/多调）
需要人工干预的比例	Agent 主动请求确认的频率

第二层：产品层指标

用户行为数据，最能反映 AI 功能的真实价值。

核心使用指标

指标	含义	监控意义
功能渗透率	活跃用户中使用 AI 功能的比例	是否真正被用上
使用频率	用户平均每周使用几次	是否形成习惯
会话完成率	开始了 AI 交互并完成目标的比例	漏斗健康度
重试率	用户对同一问题重新提问的比例	首次回答质量

质量感知指标

指标	含义	采集方式
显式满意度（👍/👎）	用户主动评价	每次输出后的反馈按钮
采用率	AI 输出被直接使用（未修改）的比例	行为埋点
修改率	输出被用户修改后才使用的比例	行为埋点
放弃率	看了 AI 输出后没有任何操作就离开	行为埋点

黄金指标

采用率 > 修改率 > 放弃率。采用率越高，说明 AI 越"猜中"用户的心。如果修改率很高但采用率低，说明 AI 的方向对但细节差；如果放弃率高，说明 AI 的输出对用户没有价值。

留存与粘性

指标	含义
D7/D30 留存	首次使用 AI 功能后 7/30 天仍活跃
功能依赖度	用了 AI 功能的用户，关闭后的流失率
使用深度	人均 AI 调用次数随时间的变化趋势

第三层：业务层指标

最终和商业目标挂钩。

To C 产品

产品类型	北极星指标	辅助指标
AI 助手（订阅）	月活付费用户数	续费率、功能渗透率
AI 内容创作	内容发布量	采用率、分享率
AI 搜索	搜索完成率	点击来源、回访率

To B 产品

产品类型	北极星指标	辅助指标
AI 客服	人工转接率降低	CSAT、解决率
AI 知识库	信息查找效率（时间节省）	搜索成功率、用户满意度
AI 销售工具	销售效率提升（人均单量）	使用率、成单周期

互动练习：设计指标体系

场景：你在做一个"AI 帮用户写工作周报"的功能。

请设计三层指标体系，每层至少 2 个指标。

查看参考答案

模型层指标：

完整响应时间 P99 < 10 秒（用户可接受的等待上限）
API 成功率 ≥ 99.9%

产品层指标：

采用率：生成的周报被直接发送（未修改）的比例（目标 > 30%）
修改率：生成后用户编辑了内容再发送（目标 40-50%，代表"有价值但需微调"）
重试率：用户点击"重新生成"的比例（目标 < 20%）
功能渗透率：每周有多少用户用了这个功能（目标 60%+ 的活跃用户）

业务层指标：

写报告耗时降低：对比使用前后，用户完成周报的平均时间
用户留存：使用 AI 周报功能的用户 D30 留存率 vs 未使用用户

4 种指标设计陷阱

陷阱 1：只看满意度评分，不看行为数据

用户点了 👍 不代表真的满意，可能是礼貌性点击。

行为数据（采用率/修改率）比评分更可信。

陷阱 2：把"使用量"当成"价值"

使用次数多不等于有价值——用户可能在反复重试，因为回答太差。

要同时看使用量和质量指标。

陷阱 3：Goodhart's Law（古德哈特定律）

当一个指标变成目标，它就不再是好指标。

案例：以"降低人工转接率"为唯一目标 → AI 开始强行回答不该回答的问题 → CSAT 下降。

解决方法：每个优化指标都要搭配护栏指标（guardrail metric）。优化人工转接率的同时，设置"CSAT 不得低于 4.0"的护栏。

陷阱 4：忽略成本指标

AI 产品的边际成本不是零，Token 费用随用量线性增长。

成本/价值比（ROI）是 AI 功能是否可持续的核心依据。

Dashboard 设计框架

一个好的 AI 产品 Dashboard 应该回答：

实时健康：
  □ API 成功率是否正常？（≥99.9%）
  □ P99 延迟是否在阈值内？

质量趋势：
  □ 本周采用率 vs 上周
  □ 显式满意度趋势
  □ 重试率趋势

成本监控：
  □ 日均 Token 消耗
  □ 成本/活跃用户
  □ 本月 API 支出预测

业务影响：
  □ AI 功能渗透率
  □ 使用 AI 的用户 vs 未用 AI 的用户留存对比

检查点

在继续之前，确保你能回答：

[ ] 能说出三层指标体系的结构，以及每层关注什么
[ ] 能解释采用率、修改率、放弃率的区别和含义
[ ] 能举例说明 Goodhart's Law 在 AI 产品中的风险
[ ] 能为一个 AI 功能设计包含护栏指标的评估方案
[ ] 能说出 AI 产品 Dashboard 应该包含哪四类指标

AI 产品指标体系 ​

三层指标体系 ​

第一层：模型层指标 ​

通用 LLM 指标 ​

RAG 专项指标 ​

Agent 专项指标 ​

第二层：产品层指标 ​

核心使用指标 ​

质量感知指标 ​

留存与粘性 ​

第三层：业务层指标 ​

To C 产品 ​

To B 产品 ​

4 种指标设计陷阱 ​

陷阱 1：只看满意度评分，不看行为数据 ​

陷阱 2：把"使用量"当成"价值" ​

陷阱 3：Goodhart's Law（古德哈特定律） ​

陷阱 4：忽略成本指标 ​

Dashboard 设计框架 ​

检查点 ​

延伸阅读 ​