Skip to content

必考题精讲

以下 10 道题来自真实 AI PM 面试,命中率极高。每题均按六段式结构解析,建议先独立作答再对照。


Q1:请介绍一下 RAG(检索增强生成)的原理,以及作为 PM 你如何评估一个 RAG 系统的效果?

① 题目 请介绍一下 RAG 的原理,以及作为 PM 你如何评估一个 RAG 系统的效果?

② 押题依据 RAG 是目前企业级 AI 产品的核心架构,几乎所有做知识库、客服、搜索类产品的公司都在用。面试官考察你是否真的理解技术实现,还是只会背术语。

③ 标准答案

RAG(Retrieval-Augmented Generation)的核心思路是:在大模型生成回答之前,先从外部知识库中检索相关文档,再将检索到的内容拼接进 Prompt,让模型基于这些上下文生成答案。

整个流程分三步:

  1. 向量化与索引:将知识库文档切分成 Chunk,用 Embedding 模型转化为向量,存入向量数据库(如 Milvus、Qdrant)。
  2. 检索:用户提问时,将问题也转化为向量,计算与知识库向量的相似度,召回 Top-K 相关 Chunk。
  3. 生成:将召回的 Chunk 拼入 Prompt,由 LLM 综合上下文生成最终回答。

作为 PM,我会从以下维度评估 RAG 系统效果:

维度指标说明
检索质量Recall@K、MRR相关文档是否被召回
生成质量忠实度(Faithfulness)、答案相关性回答是否基于召回内容、是否回答了问题
用户体验满意度、追问率、纠错率用户是否信任并使用这个回答
系统健壮性幻觉率、拒答率无相关文档时是否正确拒绝

我会用 RAGAS 等自动化评估框架跑基准测试,同时结合人工抽查和用户反馈形成闭环。

④ 前沿加分回答

2025 年之后 RAG 的演进方向值得关注:GraphRAG 用知识图谱替代纯向量检索,能处理多跳推理问题(如"A 的上司的上司是谁");Agentic RAG 则让模型自主决定是否检索、检索几轮,比 Naive RAG 更灵活。作为 PM 可以根据场景选型:FAQ 类用 Naive RAG 足够,合同审查等复杂推理场景建议考虑 GraphRAG。

⑤ 常见踩坑点

  • ❌ 只讲"检索 + 生成"两步,忽略 Embedding、Chunk 策略、向量数据库等关键环节
  • ❌ 评估指标只说"准确率",说不清楚如何量化
  • ❌ 把 RAG 和 Fine-tuning 混淆,无法清晰说出两者的适用场景差异

⑥ 回答策略

开场句推荐:「RAG 本质上是给大模型加了一个外挂知识库,我从技术原理和 PM 视角分别说一下。」

时间分配:技术原理(1分钟)→ 评估指标(1.5分钟)→ 前沿补充(30秒)。
追问预判:「RAG 和 Fine-tuning 如何选型?」——RAG 适合知识频繁更新的场景,Fine-tuning 适合风格/格式固定的场景。


Q2:什么是 Agent?请描述一个你设计过或构想过的 AI Agent 产品。

① 题目 什么是 AI Agent?请描述一个你设计过或构想过的 Agent 产品,以及遇到的挑战。

② 押题依据 2024-2026 年 Agent 是 AI 领域最热话题,所有 AI PM 岗位都会考。面试官想看你对 Agent 的理解深度,以及是否有产品化思维。

③ 标准答案

AI Agent 是一个能自主感知环境、规划行动步骤、调用工具执行任务、并根据结果反馈循环调整的 AI 系统。与普通 LLM 最大的区别在于:Agent 有记忆、工具调用、规划能力,能完成多步骤任务。

典型架构:LLM(推理核心)+ Memory(短期/长期记忆)+ Tools(搜索、代码执行、API 调用)+ Planning(ReAct/ToT)。

以"AI 需求分析 Agent"为例,我构想的产品:

  • 输入:产品经理描述用户问题和业务目标
  • Agent 行为:自动拆解任务 → 调用竞品搜索工具 → 分析用户反馈数据库 → 生成结构化 PRD 草稿
  • 输出:包含用户故事、验收标准、风险提示的 PRD 初稿

遇到的挑战:

  1. 任务规划稳定性:LLM 规划路径不稳定,同一任务可能产生不同执行步骤,需要加约束和兜底逻辑
  2. 工具错误传导:一个工具调用失败会导致后续步骤崩溃,需要错误恢复机制
  3. 用户信任问题:用户不知道 Agent 在"想什么",需要设计透明的步骤可视化

④ 前沿加分回答

Multi-Agent 协作是当前趋势:将复杂任务拆给多个专用 Agent(如搜索 Agent、写作 Agent、审核 Agent),由 Orchestrator 统筹协调,类似企业里的分工协作。OpenAI 的 Swarm、微软的 AutoGen 都在做这个方向。MCP(Model Context Protocol)则在解决 Agent 与外部工具的标准化接入问题,是 Agent 生态的"USB 接口"。

⑤ 常见踩坑点

  • ❌ 把 Agent 和"带工具调用的 Chatbot"混淆,没有体现自主规划能力
  • ❌ 只描述功能,不提挑战和解决思路,显得不接地气
  • ❌ 过于宏大("我要做一个能帮你做所有事的 Agent"),缺乏边界感

⑥ 回答策略

开场句推荐:「Agent 和普通 LLM 最大的区别是自主规划和工具调用,我先说原理,再分享一个具体设计。」

时间分配:定义+架构(1分钟)→ 具体产品设计(2分钟)→ 挑战与解法(1分钟)。
追问预判:「Agent 的幻觉问题怎么解决?」——可以从 Human-in-the-loop、置信度阈值、关键步骤强制确认等角度回答。


Q3:如何设计大模型产品的评估体系?

① 题目 你们的 AI 产品上线后,如何知道它做得好不好?请设计一套评估体系。

② 押题依据 AI 产品评估是 PM 日常核心工作,也是区分"懂 AI"和"不懂 AI"的关键点。传统产品用 A/B 测,AI 产品的输出是非确定性的,评估难度更高。

③ 标准答案

我会从三个层级设计评估体系:

层级一:模型层(离线评估)

  • 自动化指标:BLEU、ROUGE(文本生成);Accuracy、F1(分类任务);Hit Rate、MRR(检索)
  • 人工评估:专家标注,评估忠实度、流畅度、有用性
  • 对抗测试:构建 Bad Case 集合,持续回归

层级二:产品层(在线监控)

  • 用户行为:复制率、点赞/踩、追问率、任务完成率
  • 负向信号:投诉率、"重新生成"点击率、会话截断率
  • 效率指标:首 Token 延迟(TTFT)、完整回复时延

层级三:业务层(结果验证)

  • 核心业务指标:DAU、留存率、付费转化
  • ROI:AI 功能节省的人力成本、提升的效率
  • NPS / CSAT:用户满意度净推荐值

评估闭环:线上 Bad Case → 人工标注 → 加入训练/微调数据集 → 重新评估 → 上线。

④ 前沿加分回答

LLM-as-Judge 是近年兴起的评估范式:用更强的 LLM(如 GPT-4o、Claude 3.5)自动评估产品输出质量,成本远低于人工标注,且与人工评估的相关性较高。但要注意位置偏见(Judge 倾向于评高先出现的答案)和自我偏好问题,需要多轮交叉验证。

⑤ 常见踩坑点

  • ❌ 只说"看用户反馈",没有体系化的指标设计
  • ❌ 只关注模型层指标,忽略业务层验证
  • ❌ 把传统 A/B 测直接套用,忽略 AI 输出非确定性带来的统计挑战

⑥ 回答策略

开场句推荐:「AI 产品评估我会分三层来看:模型层、产品层、业务层,每层目的不同。」

时间分配:三层框架(2分钟)→ 闭环机制(1分钟)→ 前沿方法(30秒)。
追问预判:「如果人工评估和自动评估结论不一致怎么办?」——以人工评估为准,分析自动评估哪里失效,优化评估 Prompt。


Q4:Prompt Engineering 有哪些核心技巧?你在产品中如何管理 Prompt?

① 题目 作为 AI PM,你了解哪些 Prompt Engineering 技巧?在产品中如何管理和迭代 Prompt?

② 押题依据 Prompt 是 AI 产品的核心资产,PM 需要能写、能评、能管。这道题考察你的动手能力和工程化思维。

③ 标准答案

核心技巧:

技巧说明适用场景
Few-shot提供 2-5 个示例,让模型学习格式和风格输出格式固定的任务
Chain-of-Thought要求模型"一步步思考"推理、计算类任务
Role Prompting赋予模型角色("你是一位资深 AI PM")专业领域回答
结构化输出要求输出 JSON/Markdown,指定字段名与下游系统集成
约束与边界明确说"不要做什么"减少幻觉和跑题

Prompt 管理:

在产品中,我会把 Prompt 当代码管理:

  1. 版本控制:Prompt 存 Git,每次修改留变更记录
  2. AB 测试:同一场景准备多个 Prompt 版本,线上灰度
  3. 分层设计:System Prompt(角色/规则)+ User Prompt(任务)+ Few-shot(示例)分层维护
  4. Bad Case 驱动:每周收集 Bad Case,分析根因(是 Prompt 问题还是模型能力问题),针对性优化

④ 前沿加分回答

随着模型能力增强,过度复杂的 Prompt 反而会降低效果(Claude 3.5 和 GPT-4o 在简洁指令下表现更好)。趋势是从"手工 Prompt 调优"走向"DSPy 等自动化 Prompt 优化框架",让模型自己优化 Prompt。另外 Prompt Cache(Anthropic 的 Prompt Caching 功能)可以显著降低重复 System Prompt 的 Token 成本,是产品化时必须考虑的工程优化。

⑤ 常见踩坑点

  • ❌ 只列技巧名称,没有举具体例子说明什么场景用
  • ❌ 忽略 Prompt 管理,没有工程化意识
  • ❌ 把 Prompt 优化当魔法,不提失效场景和兜底方案

⑥ 回答策略

开场句推荐:「我把 Prompt Engineering 分两部分说:写好一条 Prompt 的技巧,以及在产品中管理 Prompt 的工程实践。」

时间分配:核心技巧(1.5分钟)→ 工程化管理(1.5分钟)→ 前沿趋势(30秒)。
追问预判:「给我现场写一个 Prompt 试试?」——先问清楚任务目标和输出格式,然后快速写出 Role + Task + Format + Constraint 四段式结构。


Q5:如何向非技术的业务方讲清楚大模型的能力边界?

① 题目 业务方希望用大模型做一个"全自动客服,所有问题都能准确回答",你怎么和他们沟通?

② 押题依据 这道题考察技术沟通能力和需求管理能力,是 AI PM 日常核心挑战。面试官想看你能否在不打击业务方热情的前提下,推动合理的期望设定。

③ 标准答案

我会分三步处理:

第一步:理解真实需求 "全自动"和"所有问题都能准确回答"背后的业务诉求是什么?是降低客服人力成本?还是提升响应速度?还是7×24小时覆盖?先搞清楚核心目标。

第二步:说清楚能做什么、不能做什么 大模型的能力边界可以用"象限图"来讲:

  • ✅ 能做好:知识检索、FAQ 回答、情绪安抚、信息收集
  • ⚠️ 需要谨慎:涉及账户操作、退款决策等有法律/财务风险的场景
  • ❌ 做不到:实时数据查询(余额、物流)、需要授权的操作(无法接系统)

第三步:给出可落地的方案 推荐"AI 优先 + 人工兜底"的分层架构:

  • 80% 的标准问题由 AI 自动回答(有知识库支撑)
  • 15% 的复杂问题 AI 给出参考答案,人工确认后发出
  • 5% 的高风险场景直接转人工

这样既实现了降本目标,又规避了"AI 答错导致投诉"的风险。

④ 前沿加分回答

大模型幻觉问题在客服场景是真实痛点。可以引入"置信度机制":当 RAG 召回文档相似度低于阈值时,AI 主动说"我不确定,帮您转接人工",而不是强行生成一个可能错误的答案。这在金融、医疗等高风险行业已经成为标配设计。

⑤ 常见踩坑点

  • ❌ 直接拒绝:"大模型做不到这个",没有提供替代方案,会伤害合作关系
  • ❌ 全部答应,然后上线后因为效果不达预期被追责
  • ❌ 技术解释太深,业务方听不懂,沟通失败

⑥ 回答策略

开场句推荐:「我会先把业务目标拆出来,再对应到大模型能做/能辅助/不能做的三个区间,给出分层方案。」

时间分配:探清需求(30秒)→ 能力边界说明(1.5分钟)→ 落地方案(1分钟)→ 风险兜底(30秒)。
追问预判:「如果业务方坚持要'100%准确'怎么办?」——说明'100%准确'在任何 AI 系统(包括人工客服)中都不存在,引导对齐 SLA(如 95% 准确率 + 人工兜底覆盖剩余 5%)。


Q6:你如何设计 AI 产品的用户体验,和传统产品有什么不同?

① 题目 设计 AI 产品 UX 和传统产品最大的不同是什么?请举例说明你的设计思路。

② 押题依据 AI 产品的不确定性、延迟感、幻觉等特性,带来了全新的 UX 挑战。这道题考察你是否有 AI-first 的设计思维。

③ 标准答案

传统产品 UX 核心是"确定性"——用户点击按钮,期望得到固定结果。AI 产品 UX 核心是"管理不确定性"。

五大差异点:

  1. 等待体验:AI 生成需要时间,需要用流式输出(Streaming)减少感知等待,同时给出进度提示
  2. 错误处理:AI 会犯错,界面需要设计"这个回答有用吗?"反馈机制,让用户能纠错
  3. 透明度设计:用户需要知道 AI 在"想什么"——Agent 场景要展示思考步骤;RAG 场景要展示引用来源
  4. 用户预期管理:在 onboarding 阶段就说清楚 AI 能做什么、不能做什么,避免过度期望
  5. 操控感设计:用户需要感觉"我在主导",而不是被 AI 牵着走——设计重试、编辑、撤销功能

具体案例: 在设计一款 AI 写作助手时,我会在生成过程中展示"正在检索资料…""正在组织结构…"等中间状态,比单纯的 loading 圈用户体验好 40%(减少放弃率)。

④ 前沿加分回答

"可控性"是 2025 年 AI UX 设计的核心主题。Anthropic 的研究显示,用户对 AI 产品的信任建立在"我能随时中断/修改"的感知上。设计趋势是 HITL(Human-in-the-loop)显式化:在 Agent 执行高风险操作前,强制要求用户确认,而不是让 AI 自动执行完再让用户复查。

⑤ 常见踩坑点

  • ❌ 直接套用传统产品设计思维,忽略 AI 的非确定性特征
  • ❌ 只讲 UI 细节,没有上升到设计原则层面
  • ❌ 没有提"透明度"——这是 AI 产品 UX 最核心的差异点

⑥ 回答策略

开场句推荐:「AI 产品 UX 和传统产品最大的差异在于处理不确定性,我从五个维度来说。」

时间分配:差异框架(2分钟)→ 具体案例(1分钟)→ 前沿趋势(30秒)。
追问预判:「AI 犯错了用户怎么办?」——设计分级纠错机制:轻错误用反馈按钮 + 自动学习;重错误触发人工审核通道。


Q7:Fine-tuning 和 RAG 如何选型?

① 题目 什么场景下应该选 Fine-tuning,什么场景下应该选 RAG?如果两者都用效果会更好吗?

② 押题依据 这是 AI 产品架构的核心选型题,几乎所有 B 端 AI 产品都面临这个决策。面试官考察你是否能在技术和业务之间做出合理判断。

③ 标准答案

维度RAGFine-tuning
适用场景知识频繁更新、文档量大、需要引用来源输出风格固定、任务格式规范、需要特定领域语气
更新成本低(更新文档即可)高(需要重新训练)
透明度高(可显示引用来源)低(黑盒,难以追溯)
幻觉风险中(受检索质量影响)低(训练数据质量高时)
典型案例企业知识库问答、法律条文查询客服话术统一、代码风格规范

组合使用: RAG + Fine-tuning 并非"1+1=2",组合有意义的场景是:

  • 用 Fine-tuning 让模型掌握特定输出格式和专业领域语气
  • 用 RAG 补充实时知识
  • 典型案例:法律 AI 助手 = Fine-tuned on legal corpus(理解法律语言)+ RAG(检索最新法规)

④ 前沿加分回答

近年出现第三条路:In-Context Learning(ICL) + Long Context。随着模型上下文窗口扩大到 200K+,很多原本需要 Fine-tuning 的场景可以直接把所有示例和规则塞进 Prompt,成本更低、迭代更快。选型时可以先尝试 Prompt 工程,再考虑 RAG,最后才是 Fine-tuning。

⑤ 常见踩坑点

  • ❌ 认为 Fine-tuning 一定比 RAG 效果好(实际上知识类任务 RAG 通常更优)
  • ❌ 不提更新成本和运维复杂度,只从效果角度选型
  • ❌ 不知道两者可以组合使用

⑥ 回答策略

开场句推荐:「我用一个决策框架来说:知识密集型用 RAG,风格/格式密集型用 Fine-tuning,复杂场景可以组合。」

时间分配:两者对比(1.5分钟)→ 组合方案(1分钟)→ 前沿补充(30秒)。
追问预判:「成本有限只能选一个怎么办?」——优先 RAG,门槛低、迭代快,Fine-tuning 等业务验证后再投入。


Q8:如何定义 AI 产品的核心指标体系?

① 题目 你负责一款 AI 编程助手产品,如何设计它的核心指标体系?北极星指标是什么?

② 押题依据 指标体系设计是 PM 必考题,AI 产品的特殊性在于需要同时追踪 AI 质量指标和业务指标,考察你能否设计完整的双轨指标体系。

③ 标准答案

北极星指标: 代码采纳率(Accepted Suggestions / Total Suggestions)

这个指标直接反映 AI 是否真正帮助了用户——用户接受 AI 建议意味着 AI 的建议是有价值的。

指标体系(三层):

第一层:北极星指标
└── 代码采纳率(目标 >35%)

第二层:过程指标
├── AI 质量层
│   ├── 代码准确率(编译通过率、测试通过率)
│   ├── 建议相关性(用户主动触发 vs 被动展示的采纳率差异)
│   └── 首次建议延迟(<500ms 体验最佳)
├── 用户行为层
│   ├── 日活跃使用天数(WAU中使用AI的天数)
│   ├── AI 功能使用深度(仅补全 vs 也用解释/重构)
│   └── 用户留存率(30天)
└── 效率层
    ├── 用户编码速度提升(对照组对比)
    └── Bug 率变化(使用 AI vs 不使用)

第三层:业务指标
├── 付费转化率
├── 续费率
└── NPS

④ 前沿加分回答

GitHub Copilot 公布的数据显示其代码采纳率约 30%,开发者使用后生产力提升 55%。但"采纳率"有局限性:用户可能接受了有 bug 的代码,导致后续返工。更精准的指标是"有效采纳率"= 被采纳且最终进入 main branch 的代码比例。

⑤ 常见踩坑点

  • ❌ 把"DAU"当北极星指标,没有反映 AI 核心价值
  • ❌ 指标体系只有业务层,没有 AI 质量层
  • ❌ 只有单向指标,没有反向指标(如删除 AI 生成代码的比率)

⑥ 回答策略

开场句推荐:「AI 产品指标我会分 AI 质量、用户行为、业务结果三层,北极星是代码采纳率。」

时间分配:北极星指标定义(30秒)→ 三层指标体系(2分钟)→ 反向指标和局限性(30秒)。
追问预判:「采纳率上不去怎么做?」——拆解漏斗:是建议不准确(模型问题)?建议出现太晚(延迟问题)?建议打断了工作流(UX 问题)?分别对应不同优化方向。


Q9:如何处理 AI 产品中的伦理和安全问题?

① 题目 你在负责的 AI 产品中如何处理用户数据隐私、AI 偏见和内容安全问题?

② 押题依据 AI 伦理和安全已成为监管重点,大厂面试必考。面试官考察你是否有系统性的 AI 治理思维,而不只是"加个过滤器"。

③ 标准答案

我会从三个维度建立 AI 安全防护体系:

1. 数据隐私

  • 数据最小化原则:只收集必要数据,明确告知用户用途
  • 本地化处理:敏感数据(如医疗、金融)优先端侧推理,不上传云端
  • 数据留存控制:用户对话记录默认不用于模型训练,需要用户主动授权
  • 合规:GDPR/《个人信息保护法》要求的数据删除权、可解释权

2. 内容安全

  • 输入过滤:关键词过滤 + 意图识别,拦截明显违规请求
  • 输出审核:对敏感类目(暴力、歧视、违法信息)进行后处理过滤
  • 分级策略:C 端用户严格过滤,B 端专业用户(如安全研究员)可以有白名单
  • 人工审核兜底:高风险类目 AI 判断置信度低时转人工

3. AI 偏见

  • 数据层:训练/测试数据覆盖多样化人群,避免特定群体欠表示
  • 评估层:建立公平性指标(如不同性别/地域用户的满意度差异监控)
  • 反馈层:用户可以举报偏见内容,建立快速响应机制

④ 前沿加分回答

EU AI Act(2024 年生效)将 AI 系统按风险等级分类:高风险系统(医疗、信贷评分、招聘)需要进行强制性风险评估和登记。作为 PM,在立项阶段就需要判断产品的 AI Act 合规要求,避免上线后被迫整改。国内的《生成式人工智能服务管理暂行办法》也有类似要求。

⑤ 常见踩坑点

  • ❌ 只提"加过滤器",没有体系化的治理思路
  • ❌ 只提技术手段,忽略合规法律要求
  • ❌ 把 AI 偏见当"小问题",没有提监控和反馈机制

⑥ 回答策略

开场句推荐:「我会从数据隐私、内容安全、AI 偏见三个维度来建立防护体系,每层有不同的应对策略。」

时间分配:三个维度各1分钟,共3分钟,前沿法规补充30秒。
追问预判:「用户要求删除所有对话数据怎么处理?」——需要在产品设计阶段就实现数据可删除性,包括向量数据库中的 Embedding 也要能按用户 ID 删除。


Q10:请介绍一个你主导的 AI 产品从 0 到 1 的经历。

① 题目 请介绍一个你从 0 到 1 主导过的 AI 产品,遇到了哪些挑战,你是如何解决的?

② 押题依据 终极综合考察题,考察你的项目经验、产品思维、技术理解、跨团队协作能力。这道题没有标准答案,但有标准的答题框架。

③ 标准答案

推荐使用 STAR 变体框架(Situation → Task → Action → Result → Learning):

结构模板:

  • 背景(30秒):产品背景、用户群体、要解决的核心问题
  • 我的角色(15秒):我负责哪些,团队有哪些人
  • 关键决策(2分钟):面临哪些关键选择(技术选型、功能边界、优先级),我是怎么决策的
  • 遇到的挑战(1分钟):最难的 1-2 个问题,具体是什么,怎么解的
  • 结果(30秒):核心数据/指标,用数字说话
  • 反思(30秒):如果重来一次,我会改变什么

注意事项:

  • 选一个真实项目,细节越具体越好(不要说"某个项目")
  • 数据要真实,不要夸大(面试官可能追问细节)
  • 重点放在"你的判断和决策",而不只是"做了什么事"
  • 主动提及 AI 特有的挑战(幻觉处理、评估体系、用户信任建立)

④ 前沿加分回答

在介绍项目时,可以主动提及你在产品设计中如何处理"AI 不确定性"——比如如何向用户透明展示 AI 置信度、如何设计 human-in-the-loop 流程、如何通过数据飞轮持续提升模型质量。这些是 AI 产品 PM 区别于传统 PM 的核心能力证明。

⑤ 常见踩坑点

  • ❌ 讲故事代替讲决策——说了很多"我们做了什么",但没有"为什么这样决策"
  • ❌ 没有数据,全是定性描述("用户反馈很好")
  • ❌ 遇到挑战时给出模糊解法("我们调整了策略"),没有具体说怎么调
  • ❌ 忘了提 AI 特有挑战,和传统产品经历没有区别

⑥ 回答策略

开场句推荐:「我介绍一个[产品名]的案例,当时面临的核心挑战是[X],我来说说我是怎么做决策的。」

时间分配:按 STAR 框架,4-5 分钟为宜,不要超过 6 分钟。
追问预判:「你提到的指标提升,是否可能受到其他因素影响?」——主动承认可能存在的变量,说明你如何控制变量(如 A/B 测试设计)。


学习建议

每道题建议先用 5 分钟独立作答,再对照标准答案找差距。重点不是背答案,而是理解为什么这样回答,以及如何把这些框架融入自己的真实经历。

专为 AI 产品经理打造