必考题精讲
以下 10 道题来自真实 AI PM 面试,命中率极高。每题均按六段式结构解析,建议先独立作答再对照。
Q1:请介绍一下 RAG(检索增强生成)的原理,以及作为 PM 你如何评估一个 RAG 系统的效果?
① 题目 请介绍一下 RAG 的原理,以及作为 PM 你如何评估一个 RAG 系统的效果?
② 押题依据 RAG 是目前企业级 AI 产品的核心架构,几乎所有做知识库、客服、搜索类产品的公司都在用。面试官考察你是否真的理解技术实现,还是只会背术语。
③ 标准答案
RAG(Retrieval-Augmented Generation)的核心思路是:在大模型生成回答之前,先从外部知识库中检索相关文档,再将检索到的内容拼接进 Prompt,让模型基于这些上下文生成答案。
整个流程分三步:
- 向量化与索引:将知识库文档切分成 Chunk,用 Embedding 模型转化为向量,存入向量数据库(如 Milvus、Qdrant)。
- 检索:用户提问时,将问题也转化为向量,计算与知识库向量的相似度,召回 Top-K 相关 Chunk。
- 生成:将召回的 Chunk 拼入 Prompt,由 LLM 综合上下文生成最终回答。
作为 PM,我会从以下维度评估 RAG 系统效果:
| 维度 | 指标 | 说明 |
|---|---|---|
| 检索质量 | Recall@K、MRR | 相关文档是否被召回 |
| 生成质量 | 忠实度(Faithfulness)、答案相关性 | 回答是否基于召回内容、是否回答了问题 |
| 用户体验 | 满意度、追问率、纠错率 | 用户是否信任并使用这个回答 |
| 系统健壮性 | 幻觉率、拒答率 | 无相关文档时是否正确拒绝 |
我会用 RAGAS 等自动化评估框架跑基准测试,同时结合人工抽查和用户反馈形成闭环。
④ 前沿加分回答
2025 年之后 RAG 的演进方向值得关注:GraphRAG 用知识图谱替代纯向量检索,能处理多跳推理问题(如"A 的上司的上司是谁");Agentic RAG 则让模型自主决定是否检索、检索几轮,比 Naive RAG 更灵活。作为 PM 可以根据场景选型:FAQ 类用 Naive RAG 足够,合同审查等复杂推理场景建议考虑 GraphRAG。
⑤ 常见踩坑点
- ❌ 只讲"检索 + 生成"两步,忽略 Embedding、Chunk 策略、向量数据库等关键环节
- ❌ 评估指标只说"准确率",说不清楚如何量化
- ❌ 把 RAG 和 Fine-tuning 混淆,无法清晰说出两者的适用场景差异
⑥ 回答策略
开场句推荐:「RAG 本质上是给大模型加了一个外挂知识库,我从技术原理和 PM 视角分别说一下。」
时间分配:技术原理(1分钟)→ 评估指标(1.5分钟)→ 前沿补充(30秒)。
追问预判:「RAG 和 Fine-tuning 如何选型?」——RAG 适合知识频繁更新的场景,Fine-tuning 适合风格/格式固定的场景。
Q2:什么是 Agent?请描述一个你设计过或构想过的 AI Agent 产品。
① 题目 什么是 AI Agent?请描述一个你设计过或构想过的 Agent 产品,以及遇到的挑战。
② 押题依据 2024-2026 年 Agent 是 AI 领域最热话题,所有 AI PM 岗位都会考。面试官想看你对 Agent 的理解深度,以及是否有产品化思维。
③ 标准答案
AI Agent 是一个能自主感知环境、规划行动步骤、调用工具执行任务、并根据结果反馈循环调整的 AI 系统。与普通 LLM 最大的区别在于:Agent 有记忆、工具调用、规划能力,能完成多步骤任务。
典型架构:LLM(推理核心)+ Memory(短期/长期记忆)+ Tools(搜索、代码执行、API 调用)+ Planning(ReAct/ToT)。
以"AI 需求分析 Agent"为例,我构想的产品:
- 输入:产品经理描述用户问题和业务目标
- Agent 行为:自动拆解任务 → 调用竞品搜索工具 → 分析用户反馈数据库 → 生成结构化 PRD 草稿
- 输出:包含用户故事、验收标准、风险提示的 PRD 初稿
遇到的挑战:
- 任务规划稳定性:LLM 规划路径不稳定,同一任务可能产生不同执行步骤,需要加约束和兜底逻辑
- 工具错误传导:一个工具调用失败会导致后续步骤崩溃,需要错误恢复机制
- 用户信任问题:用户不知道 Agent 在"想什么",需要设计透明的步骤可视化
④ 前沿加分回答
Multi-Agent 协作是当前趋势:将复杂任务拆给多个专用 Agent(如搜索 Agent、写作 Agent、审核 Agent),由 Orchestrator 统筹协调,类似企业里的分工协作。OpenAI 的 Swarm、微软的 AutoGen 都在做这个方向。MCP(Model Context Protocol)则在解决 Agent 与外部工具的标准化接入问题,是 Agent 生态的"USB 接口"。
⑤ 常见踩坑点
- ❌ 把 Agent 和"带工具调用的 Chatbot"混淆,没有体现自主规划能力
- ❌ 只描述功能,不提挑战和解决思路,显得不接地气
- ❌ 过于宏大("我要做一个能帮你做所有事的 Agent"),缺乏边界感
⑥ 回答策略
开场句推荐:「Agent 和普通 LLM 最大的区别是自主规划和工具调用,我先说原理,再分享一个具体设计。」
时间分配:定义+架构(1分钟)→ 具体产品设计(2分钟)→ 挑战与解法(1分钟)。
追问预判:「Agent 的幻觉问题怎么解决?」——可以从 Human-in-the-loop、置信度阈值、关键步骤强制确认等角度回答。
Q3:如何设计大模型产品的评估体系?
① 题目 你们的 AI 产品上线后,如何知道它做得好不好?请设计一套评估体系。
② 押题依据 AI 产品评估是 PM 日常核心工作,也是区分"懂 AI"和"不懂 AI"的关键点。传统产品用 A/B 测,AI 产品的输出是非确定性的,评估难度更高。
③ 标准答案
我会从三个层级设计评估体系:
层级一:模型层(离线评估)
- 自动化指标:BLEU、ROUGE(文本生成);Accuracy、F1(分类任务);Hit Rate、MRR(检索)
- 人工评估:专家标注,评估忠实度、流畅度、有用性
- 对抗测试:构建 Bad Case 集合,持续回归
层级二:产品层(在线监控)
- 用户行为:复制率、点赞/踩、追问率、任务完成率
- 负向信号:投诉率、"重新生成"点击率、会话截断率
- 效率指标:首 Token 延迟(TTFT)、完整回复时延
层级三:业务层(结果验证)
- 核心业务指标:DAU、留存率、付费转化
- ROI:AI 功能节省的人力成本、提升的效率
- NPS / CSAT:用户满意度净推荐值
评估闭环:线上 Bad Case → 人工标注 → 加入训练/微调数据集 → 重新评估 → 上线。
④ 前沿加分回答
LLM-as-Judge 是近年兴起的评估范式:用更强的 LLM(如 GPT-4o、Claude 3.5)自动评估产品输出质量,成本远低于人工标注,且与人工评估的相关性较高。但要注意位置偏见(Judge 倾向于评高先出现的答案)和自我偏好问题,需要多轮交叉验证。
⑤ 常见踩坑点
- ❌ 只说"看用户反馈",没有体系化的指标设计
- ❌ 只关注模型层指标,忽略业务层验证
- ❌ 把传统 A/B 测直接套用,忽略 AI 输出非确定性带来的统计挑战
⑥ 回答策略
开场句推荐:「AI 产品评估我会分三层来看:模型层、产品层、业务层,每层目的不同。」
时间分配:三层框架(2分钟)→ 闭环机制(1分钟)→ 前沿方法(30秒)。
追问预判:「如果人工评估和自动评估结论不一致怎么办?」——以人工评估为准,分析自动评估哪里失效,优化评估 Prompt。
Q4:Prompt Engineering 有哪些核心技巧?你在产品中如何管理 Prompt?
① 题目 作为 AI PM,你了解哪些 Prompt Engineering 技巧?在产品中如何管理和迭代 Prompt?
② 押题依据 Prompt 是 AI 产品的核心资产,PM 需要能写、能评、能管。这道题考察你的动手能力和工程化思维。
③ 标准答案
核心技巧:
| 技巧 | 说明 | 适用场景 |
|---|---|---|
| Few-shot | 提供 2-5 个示例,让模型学习格式和风格 | 输出格式固定的任务 |
| Chain-of-Thought | 要求模型"一步步思考" | 推理、计算类任务 |
| Role Prompting | 赋予模型角色("你是一位资深 AI PM") | 专业领域回答 |
| 结构化输出 | 要求输出 JSON/Markdown,指定字段名 | 与下游系统集成 |
| 约束与边界 | 明确说"不要做什么" | 减少幻觉和跑题 |
Prompt 管理:
在产品中,我会把 Prompt 当代码管理:
- 版本控制:Prompt 存 Git,每次修改留变更记录
- AB 测试:同一场景准备多个 Prompt 版本,线上灰度
- 分层设计:System Prompt(角色/规则)+ User Prompt(任务)+ Few-shot(示例)分层维护
- Bad Case 驱动:每周收集 Bad Case,分析根因(是 Prompt 问题还是模型能力问题),针对性优化
④ 前沿加分回答
随着模型能力增强,过度复杂的 Prompt 反而会降低效果(Claude 3.5 和 GPT-4o 在简洁指令下表现更好)。趋势是从"手工 Prompt 调优"走向"DSPy 等自动化 Prompt 优化框架",让模型自己优化 Prompt。另外 Prompt Cache(Anthropic 的 Prompt Caching 功能)可以显著降低重复 System Prompt 的 Token 成本,是产品化时必须考虑的工程优化。
⑤ 常见踩坑点
- ❌ 只列技巧名称,没有举具体例子说明什么场景用
- ❌ 忽略 Prompt 管理,没有工程化意识
- ❌ 把 Prompt 优化当魔法,不提失效场景和兜底方案
⑥ 回答策略
开场句推荐:「我把 Prompt Engineering 分两部分说:写好一条 Prompt 的技巧,以及在产品中管理 Prompt 的工程实践。」
时间分配:核心技巧(1.5分钟)→ 工程化管理(1.5分钟)→ 前沿趋势(30秒)。
追问预判:「给我现场写一个 Prompt 试试?」——先问清楚任务目标和输出格式,然后快速写出 Role + Task + Format + Constraint 四段式结构。
Q5:如何向非技术的业务方讲清楚大模型的能力边界?
① 题目 业务方希望用大模型做一个"全自动客服,所有问题都能准确回答",你怎么和他们沟通?
② 押题依据 这道题考察技术沟通能力和需求管理能力,是 AI PM 日常核心挑战。面试官想看你能否在不打击业务方热情的前提下,推动合理的期望设定。
③ 标准答案
我会分三步处理:
第一步:理解真实需求 "全自动"和"所有问题都能准确回答"背后的业务诉求是什么?是降低客服人力成本?还是提升响应速度?还是7×24小时覆盖?先搞清楚核心目标。
第二步:说清楚能做什么、不能做什么 大模型的能力边界可以用"象限图"来讲:
- ✅ 能做好:知识检索、FAQ 回答、情绪安抚、信息收集
- ⚠️ 需要谨慎:涉及账户操作、退款决策等有法律/财务风险的场景
- ❌ 做不到:实时数据查询(余额、物流)、需要授权的操作(无法接系统)
第三步:给出可落地的方案 推荐"AI 优先 + 人工兜底"的分层架构:
- 80% 的标准问题由 AI 自动回答(有知识库支撑)
- 15% 的复杂问题 AI 给出参考答案,人工确认后发出
- 5% 的高风险场景直接转人工
这样既实现了降本目标,又规避了"AI 答错导致投诉"的风险。
④ 前沿加分回答
大模型幻觉问题在客服场景是真实痛点。可以引入"置信度机制":当 RAG 召回文档相似度低于阈值时,AI 主动说"我不确定,帮您转接人工",而不是强行生成一个可能错误的答案。这在金融、医疗等高风险行业已经成为标配设计。
⑤ 常见踩坑点
- ❌ 直接拒绝:"大模型做不到这个",没有提供替代方案,会伤害合作关系
- ❌ 全部答应,然后上线后因为效果不达预期被追责
- ❌ 技术解释太深,业务方听不懂,沟通失败
⑥ 回答策略
开场句推荐:「我会先把业务目标拆出来,再对应到大模型能做/能辅助/不能做的三个区间,给出分层方案。」
时间分配:探清需求(30秒)→ 能力边界说明(1.5分钟)→ 落地方案(1分钟)→ 风险兜底(30秒)。
追问预判:「如果业务方坚持要'100%准确'怎么办?」——说明'100%准确'在任何 AI 系统(包括人工客服)中都不存在,引导对齐 SLA(如 95% 准确率 + 人工兜底覆盖剩余 5%)。
Q6:你如何设计 AI 产品的用户体验,和传统产品有什么不同?
① 题目 设计 AI 产品 UX 和传统产品最大的不同是什么?请举例说明你的设计思路。
② 押题依据 AI 产品的不确定性、延迟感、幻觉等特性,带来了全新的 UX 挑战。这道题考察你是否有 AI-first 的设计思维。
③ 标准答案
传统产品 UX 核心是"确定性"——用户点击按钮,期望得到固定结果。AI 产品 UX 核心是"管理不确定性"。
五大差异点:
- 等待体验:AI 生成需要时间,需要用流式输出(Streaming)减少感知等待,同时给出进度提示
- 错误处理:AI 会犯错,界面需要设计"这个回答有用吗?"反馈机制,让用户能纠错
- 透明度设计:用户需要知道 AI 在"想什么"——Agent 场景要展示思考步骤;RAG 场景要展示引用来源
- 用户预期管理:在 onboarding 阶段就说清楚 AI 能做什么、不能做什么,避免过度期望
- 操控感设计:用户需要感觉"我在主导",而不是被 AI 牵着走——设计重试、编辑、撤销功能
具体案例: 在设计一款 AI 写作助手时,我会在生成过程中展示"正在检索资料…""正在组织结构…"等中间状态,比单纯的 loading 圈用户体验好 40%(减少放弃率)。
④ 前沿加分回答
"可控性"是 2025 年 AI UX 设计的核心主题。Anthropic 的研究显示,用户对 AI 产品的信任建立在"我能随时中断/修改"的感知上。设计趋势是 HITL(Human-in-the-loop)显式化:在 Agent 执行高风险操作前,强制要求用户确认,而不是让 AI 自动执行完再让用户复查。
⑤ 常见踩坑点
- ❌ 直接套用传统产品设计思维,忽略 AI 的非确定性特征
- ❌ 只讲 UI 细节,没有上升到设计原则层面
- ❌ 没有提"透明度"——这是 AI 产品 UX 最核心的差异点
⑥ 回答策略
开场句推荐:「AI 产品 UX 和传统产品最大的差异在于处理不确定性,我从五个维度来说。」
时间分配:差异框架(2分钟)→ 具体案例(1分钟)→ 前沿趋势(30秒)。
追问预判:「AI 犯错了用户怎么办?」——设计分级纠错机制:轻错误用反馈按钮 + 自动学习;重错误触发人工审核通道。
Q7:Fine-tuning 和 RAG 如何选型?
① 题目 什么场景下应该选 Fine-tuning,什么场景下应该选 RAG?如果两者都用效果会更好吗?
② 押题依据 这是 AI 产品架构的核心选型题,几乎所有 B 端 AI 产品都面临这个决策。面试官考察你是否能在技术和业务之间做出合理判断。
③ 标准答案
| 维度 | RAG | Fine-tuning |
|---|---|---|
| 适用场景 | 知识频繁更新、文档量大、需要引用来源 | 输出风格固定、任务格式规范、需要特定领域语气 |
| 更新成本 | 低(更新文档即可) | 高(需要重新训练) |
| 透明度 | 高(可显示引用来源) | 低(黑盒,难以追溯) |
| 幻觉风险 | 中(受检索质量影响) | 低(训练数据质量高时) |
| 典型案例 | 企业知识库问答、法律条文查询 | 客服话术统一、代码风格规范 |
组合使用: RAG + Fine-tuning 并非"1+1=2",组合有意义的场景是:
- 用 Fine-tuning 让模型掌握特定输出格式和专业领域语气
- 用 RAG 补充实时知识
- 典型案例:法律 AI 助手 = Fine-tuned on legal corpus(理解法律语言)+ RAG(检索最新法规)
④ 前沿加分回答
近年出现第三条路:In-Context Learning(ICL) + Long Context。随着模型上下文窗口扩大到 200K+,很多原本需要 Fine-tuning 的场景可以直接把所有示例和规则塞进 Prompt,成本更低、迭代更快。选型时可以先尝试 Prompt 工程,再考虑 RAG,最后才是 Fine-tuning。
⑤ 常见踩坑点
- ❌ 认为 Fine-tuning 一定比 RAG 效果好(实际上知识类任务 RAG 通常更优)
- ❌ 不提更新成本和运维复杂度,只从效果角度选型
- ❌ 不知道两者可以组合使用
⑥ 回答策略
开场句推荐:「我用一个决策框架来说:知识密集型用 RAG,风格/格式密集型用 Fine-tuning,复杂场景可以组合。」
时间分配:两者对比(1.5分钟)→ 组合方案(1分钟)→ 前沿补充(30秒)。
追问预判:「成本有限只能选一个怎么办?」——优先 RAG,门槛低、迭代快,Fine-tuning 等业务验证后再投入。
Q8:如何定义 AI 产品的核心指标体系?
① 题目 你负责一款 AI 编程助手产品,如何设计它的核心指标体系?北极星指标是什么?
② 押题依据 指标体系设计是 PM 必考题,AI 产品的特殊性在于需要同时追踪 AI 质量指标和业务指标,考察你能否设计完整的双轨指标体系。
③ 标准答案
北极星指标: 代码采纳率(Accepted Suggestions / Total Suggestions)
这个指标直接反映 AI 是否真正帮助了用户——用户接受 AI 建议意味着 AI 的建议是有价值的。
指标体系(三层):
第一层:北极星指标
└── 代码采纳率(目标 >35%)
第二层:过程指标
├── AI 质量层
│ ├── 代码准确率(编译通过率、测试通过率)
│ ├── 建议相关性(用户主动触发 vs 被动展示的采纳率差异)
│ └── 首次建议延迟(<500ms 体验最佳)
├── 用户行为层
│ ├── 日活跃使用天数(WAU中使用AI的天数)
│ ├── AI 功能使用深度(仅补全 vs 也用解释/重构)
│ └── 用户留存率(30天)
└── 效率层
├── 用户编码速度提升(对照组对比)
└── Bug 率变化(使用 AI vs 不使用)
第三层:业务指标
├── 付费转化率
├── 续费率
└── NPS④ 前沿加分回答
GitHub Copilot 公布的数据显示其代码采纳率约 30%,开发者使用后生产力提升 55%。但"采纳率"有局限性:用户可能接受了有 bug 的代码,导致后续返工。更精准的指标是"有效采纳率"= 被采纳且最终进入 main branch 的代码比例。
⑤ 常见踩坑点
- ❌ 把"DAU"当北极星指标,没有反映 AI 核心价值
- ❌ 指标体系只有业务层,没有 AI 质量层
- ❌ 只有单向指标,没有反向指标(如删除 AI 生成代码的比率)
⑥ 回答策略
开场句推荐:「AI 产品指标我会分 AI 质量、用户行为、业务结果三层,北极星是代码采纳率。」
时间分配:北极星指标定义(30秒)→ 三层指标体系(2分钟)→ 反向指标和局限性(30秒)。
追问预判:「采纳率上不去怎么做?」——拆解漏斗:是建议不准确(模型问题)?建议出现太晚(延迟问题)?建议打断了工作流(UX 问题)?分别对应不同优化方向。
Q9:如何处理 AI 产品中的伦理和安全问题?
① 题目 你在负责的 AI 产品中如何处理用户数据隐私、AI 偏见和内容安全问题?
② 押题依据 AI 伦理和安全已成为监管重点,大厂面试必考。面试官考察你是否有系统性的 AI 治理思维,而不只是"加个过滤器"。
③ 标准答案
我会从三个维度建立 AI 安全防护体系:
1. 数据隐私
- 数据最小化原则:只收集必要数据,明确告知用户用途
- 本地化处理:敏感数据(如医疗、金融)优先端侧推理,不上传云端
- 数据留存控制:用户对话记录默认不用于模型训练,需要用户主动授权
- 合规:GDPR/《个人信息保护法》要求的数据删除权、可解释权
2. 内容安全
- 输入过滤:关键词过滤 + 意图识别,拦截明显违规请求
- 输出审核:对敏感类目(暴力、歧视、违法信息)进行后处理过滤
- 分级策略:C 端用户严格过滤,B 端专业用户(如安全研究员)可以有白名单
- 人工审核兜底:高风险类目 AI 判断置信度低时转人工
3. AI 偏见
- 数据层:训练/测试数据覆盖多样化人群,避免特定群体欠表示
- 评估层:建立公平性指标(如不同性别/地域用户的满意度差异监控)
- 反馈层:用户可以举报偏见内容,建立快速响应机制
④ 前沿加分回答
EU AI Act(2024 年生效)将 AI 系统按风险等级分类:高风险系统(医疗、信贷评分、招聘)需要进行强制性风险评估和登记。作为 PM,在立项阶段就需要判断产品的 AI Act 合规要求,避免上线后被迫整改。国内的《生成式人工智能服务管理暂行办法》也有类似要求。
⑤ 常见踩坑点
- ❌ 只提"加过滤器",没有体系化的治理思路
- ❌ 只提技术手段,忽略合规法律要求
- ❌ 把 AI 偏见当"小问题",没有提监控和反馈机制
⑥ 回答策略
开场句推荐:「我会从数据隐私、内容安全、AI 偏见三个维度来建立防护体系,每层有不同的应对策略。」
时间分配:三个维度各1分钟,共3分钟,前沿法规补充30秒。
追问预判:「用户要求删除所有对话数据怎么处理?」——需要在产品设计阶段就实现数据可删除性,包括向量数据库中的 Embedding 也要能按用户 ID 删除。
Q10:请介绍一个你主导的 AI 产品从 0 到 1 的经历。
① 题目 请介绍一个你从 0 到 1 主导过的 AI 产品,遇到了哪些挑战,你是如何解决的?
② 押题依据 终极综合考察题,考察你的项目经验、产品思维、技术理解、跨团队协作能力。这道题没有标准答案,但有标准的答题框架。
③ 标准答案
推荐使用 STAR 变体框架(Situation → Task → Action → Result → Learning):
结构模板:
- 背景(30秒):产品背景、用户群体、要解决的核心问题
- 我的角色(15秒):我负责哪些,团队有哪些人
- 关键决策(2分钟):面临哪些关键选择(技术选型、功能边界、优先级),我是怎么决策的
- 遇到的挑战(1分钟):最难的 1-2 个问题,具体是什么,怎么解的
- 结果(30秒):核心数据/指标,用数字说话
- 反思(30秒):如果重来一次,我会改变什么
注意事项:
- 选一个真实项目,细节越具体越好(不要说"某个项目")
- 数据要真实,不要夸大(面试官可能追问细节)
- 重点放在"你的判断和决策",而不只是"做了什么事"
- 主动提及 AI 特有的挑战(幻觉处理、评估体系、用户信任建立)
④ 前沿加分回答
在介绍项目时,可以主动提及你在产品设计中如何处理"AI 不确定性"——比如如何向用户透明展示 AI 置信度、如何设计 human-in-the-loop 流程、如何通过数据飞轮持续提升模型质量。这些是 AI 产品 PM 区别于传统 PM 的核心能力证明。
⑤ 常见踩坑点
- ❌ 讲故事代替讲决策——说了很多"我们做了什么",但没有"为什么这样决策"
- ❌ 没有数据,全是定性描述("用户反馈很好")
- ❌ 遇到挑战时给出模糊解法("我们调整了策略"),没有具体说怎么调
- ❌ 忘了提 AI 特有挑战,和传统产品经历没有区别
⑥ 回答策略
开场句推荐:「我介绍一个[产品名]的案例,当时面临的核心挑战是[X],我来说说我是怎么做决策的。」
时间分配:按 STAR 框架,4-5 分钟为宜,不要超过 6 分钟。
追问预判:「你提到的指标提升,是否可能受到其他因素影响?」——主动承认可能存在的变量,说明你如何控制变量(如 A/B 测试设计)。
学习建议
每道题建议先用 5 分钟独立作答,再对照标准答案找差距。重点不是背答案,而是理解为什么这样回答,以及如何把这些框架融入自己的真实经历。