必考题精讲

以下 10 道题来自真实 AI PM 面试，命中率极高。每题均按六段式结构解析，建议先独立作答再对照。

Q1：请介绍一下 RAG（检索增强生成）的原理，以及作为 PM 你如何评估一个 RAG 系统的效果？

① 题目 请介绍一下 RAG 的原理，以及作为 PM 你如何评估一个 RAG 系统的效果？

② 押题依据 RAG 是目前企业级 AI 产品的核心架构，几乎所有做知识库、客服、搜索类产品的公司都在用。面试官考察你是否真的理解技术实现，还是只会背术语。

③ 标准答案

RAG（Retrieval-Augmented Generation）的核心思路是：在大模型生成回答之前，先从外部知识库中检索相关文档，再将检索到的内容拼接进 Prompt，让模型基于这些上下文生成答案。

整个流程分三步：

向量化与索引：将知识库文档切分成 Chunk，用 Embedding 模型转化为向量，存入向量数据库（如 Milvus、Qdrant）。
检索：用户提问时，将问题也转化为向量，计算与知识库向量的相似度，召回 Top-K 相关 Chunk。
生成：将召回的 Chunk 拼入 Prompt，由 LLM 综合上下文生成最终回答。

作为 PM，我会从以下维度评估 RAG 系统效果：

维度	指标	说明
检索质量	Recall@K、MRR	相关文档是否被召回
生成质量	忠实度（Faithfulness）、答案相关性	回答是否基于召回内容、是否回答了问题
用户体验	满意度、追问率、纠错率	用户是否信任并使用这个回答
系统健壮性	幻觉率、拒答率	无相关文档时是否正确拒绝

我会用 RAGAS 等自动化评估框架跑基准测试，同时结合人工抽查和用户反馈形成闭环。

④ 前沿加分回答

2025 年之后 RAG 的演进方向值得关注：GraphRAG 用知识图谱替代纯向量检索，能处理多跳推理问题（如"A 的上司的上司是谁"）；Agentic RAG 则让模型自主决定是否检索、检索几轮，比 Naive RAG 更灵活。作为 PM 可以根据场景选型：FAQ 类用 Naive RAG 足够，合同审查等复杂推理场景建议考虑 GraphRAG。

⑤ 常见踩坑点

❌ 只讲"检索 + 生成"两步，忽略 Embedding、Chunk 策略、向量数据库等关键环节
❌ 评估指标只说"准确率"，说不清楚如何量化
❌ 把 RAG 和 Fine-tuning 混淆，无法清晰说出两者的适用场景差异

⑥ 回答策略

开场句推荐：「RAG 本质上是给大模型加了一个外挂知识库，我从技术原理和 PM 视角分别说一下。」

时间分配：技术原理（1分钟）→ 评估指标（1.5分钟）→ 前沿补充（30秒）。
追问预判：「RAG 和 Fine-tuning 如何选型？」——RAG 适合知识频繁更新的场景，Fine-tuning 适合风格/格式固定的场景。

Q2：什么是 Agent？请描述一个你设计过或构想过的 AI Agent 产品。

① 题目 什么是 AI Agent？请描述一个你设计过或构想过的 Agent 产品，以及遇到的挑战。

② 押题依据 2024-2026 年 Agent 是 AI 领域最热话题，所有 AI PM 岗位都会考。面试官想看你对 Agent 的理解深度，以及是否有产品化思维。

③ 标准答案

AI Agent 是一个能自主感知环境、规划行动步骤、调用工具执行任务、并根据结果反馈循环调整的 AI 系统。与普通 LLM 最大的区别在于：Agent 有记忆、工具调用、规划能力，能完成多步骤任务。

典型架构：LLM（推理核心）+ Memory（短期/长期记忆）+ Tools（搜索、代码执行、API 调用）+ Planning（ReAct/ToT）。

以"AI 需求分析 Agent"为例，我构想的产品：

输入：产品经理描述用户问题和业务目标
Agent 行为：自动拆解任务 → 调用竞品搜索工具 → 分析用户反馈数据库 → 生成结构化 PRD 草稿
输出：包含用户故事、验收标准、风险提示的 PRD 初稿

遇到的挑战：

任务规划稳定性：LLM 规划路径不稳定，同一任务可能产生不同执行步骤，需要加约束和兜底逻辑
工具错误传导：一个工具调用失败会导致后续步骤崩溃，需要错误恢复机制
用户信任问题：用户不知道 Agent 在"想什么"，需要设计透明的步骤可视化

④ 前沿加分回答

Multi-Agent 协作是当前趋势：将复杂任务拆给多个专用 Agent（如搜索 Agent、写作 Agent、审核 Agent），由 Orchestrator 统筹协调，类似企业里的分工协作。OpenAI 的 Swarm、微软的 AutoGen 都在做这个方向。MCP（Model Context Protocol）则在解决 Agent 与外部工具的标准化接入问题，是 Agent 生态的"USB 接口"。

⑤ 常见踩坑点

❌ 把 Agent 和"带工具调用的 Chatbot"混淆，没有体现自主规划能力
❌ 只描述功能，不提挑战和解决思路，显得不接地气
❌ 过于宏大（"我要做一个能帮你做所有事的 Agent"），缺乏边界感

⑥ 回答策略

开场句推荐：「Agent 和普通 LLM 最大的区别是自主规划和工具调用，我先说原理，再分享一个具体设计。」

时间分配：定义+架构（1分钟）→ 具体产品设计（2分钟）→ 挑战与解法（1分钟）。
追问预判：「Agent 的幻觉问题怎么解决？」——可以从 Human-in-the-loop、置信度阈值、关键步骤强制确认等角度回答。

Q3：如何设计大模型产品的评估体系？

① 题目 你们的 AI 产品上线后，如何知道它做得好不好？请设计一套评估体系。

② 押题依据 AI 产品评估是 PM 日常核心工作，也是区分"懂 AI"和"不懂 AI"的关键点。传统产品用 A/B 测，AI 产品的输出是非确定性的，评估难度更高。

③ 标准答案

我会从三个层级设计评估体系：

层级一：模型层（离线评估）

自动化指标：BLEU、ROUGE（文本生成）；Accuracy、F1（分类任务）；Hit Rate、MRR（检索）
人工评估：专家标注，评估忠实度、流畅度、有用性
对抗测试：构建 Bad Case 集合，持续回归

层级二：产品层（在线监控）

用户行为：复制率、点赞/踩、追问率、任务完成率
负向信号：投诉率、"重新生成"点击率、会话截断率
效率指标：首 Token 延迟（TTFT）、完整回复时延

层级三：业务层（结果验证）

核心业务指标：DAU、留存率、付费转化
ROI：AI 功能节省的人力成本、提升的效率
NPS / CSAT：用户满意度净推荐值

评估闭环：线上 Bad Case → 人工标注 → 加入训练/微调数据集 → 重新评估 → 上线。

④ 前沿加分回答

LLM-as-Judge 是近年兴起的评估范式：用更强的 LLM（如 GPT-4o、Claude 3.5）自动评估产品输出质量，成本远低于人工标注，且与人工评估的相关性较高。但要注意位置偏见（Judge 倾向于评高先出现的答案）和自我偏好问题，需要多轮交叉验证。

⑤ 常见踩坑点

❌ 只说"看用户反馈"，没有体系化的指标设计
❌ 只关注模型层指标，忽略业务层验证
❌ 把传统 A/B 测直接套用，忽略 AI 输出非确定性带来的统计挑战

⑥ 回答策略

开场句推荐：「AI 产品评估我会分三层来看：模型层、产品层、业务层，每层目的不同。」

时间分配：三层框架（2分钟）→ 闭环机制（1分钟）→ 前沿方法（30秒）。
追问预判：「如果人工评估和自动评估结论不一致怎么办？」——以人工评估为准，分析自动评估哪里失效，优化评估 Prompt。

Q4：Prompt Engineering 有哪些核心技巧？你在产品中如何管理 Prompt？

① 题目 作为 AI PM，你了解哪些 Prompt Engineering 技巧？在产品中如何管理和迭代 Prompt？

② 押题依据 Prompt 是 AI 产品的核心资产，PM 需要能写、能评、能管。这道题考察你的动手能力和工程化思维。

③ 标准答案

核心技巧：

技巧	说明	适用场景
Few-shot	提供 2-5 个示例，让模型学习格式和风格	输出格式固定的任务
Chain-of-Thought	要求模型"一步步思考"	推理、计算类任务
Role Prompting	赋予模型角色（"你是一位资深 AI PM"）	专业领域回答
结构化输出	要求输出 JSON/Markdown，指定字段名	与下游系统集成
约束与边界	明确说"不要做什么"	减少幻觉和跑题

Prompt 管理：

在产品中，我会把 Prompt 当代码管理：

版本控制：Prompt 存 Git，每次修改留变更记录
AB 测试：同一场景准备多个 Prompt 版本，线上灰度
分层设计：System Prompt（角色/规则）+ User Prompt（任务）+ Few-shot（示例）分层维护
Bad Case 驱动：每周收集 Bad Case，分析根因（是 Prompt 问题还是模型能力问题），针对性优化

④ 前沿加分回答

随着模型能力增强，过度复杂的 Prompt 反而会降低效果（Claude 3.5 和 GPT-4o 在简洁指令下表现更好）。趋势是从"手工 Prompt 调优"走向"DSPy 等自动化 Prompt 优化框架"，让模型自己优化 Prompt。另外 Prompt Cache（Anthropic 的 Prompt Caching 功能）可以显著降低重复 System Prompt 的 Token 成本，是产品化时必须考虑的工程优化。

⑤ 常见踩坑点

❌ 只列技巧名称，没有举具体例子说明什么场景用
❌ 忽略 Prompt 管理，没有工程化意识
❌ 把 Prompt 优化当魔法，不提失效场景和兜底方案

⑥ 回答策略

开场句推荐：「我把 Prompt Engineering 分两部分说：写好一条 Prompt 的技巧，以及在产品中管理 Prompt 的工程实践。」

时间分配：核心技巧（1.5分钟）→ 工程化管理（1.5分钟）→ 前沿趋势（30秒）。
追问预判：「给我现场写一个 Prompt 试试？」——先问清楚任务目标和输出格式，然后快速写出 Role + Task + Format + Constraint 四段式结构。

Q5：如何向非技术的业务方讲清楚大模型的能力边界？

① 题目 业务方希望用大模型做一个"全自动客服，所有问题都能准确回答"，你怎么和他们沟通？

② 押题依据 这道题考察技术沟通能力和需求管理能力，是 AI PM 日常核心挑战。面试官想看你能否在不打击业务方热情的前提下，推动合理的期望设定。

③ 标准答案

我会分三步处理：

第一步：理解真实需求 "全自动"和"所有问题都能准确回答"背后的业务诉求是什么？是降低客服人力成本？还是提升响应速度？还是7×24小时覆盖？先搞清楚核心目标。

第二步：说清楚能做什么、不能做什么 大模型的能力边界可以用"象限图"来讲：

✅ 能做好：知识检索、FAQ 回答、情绪安抚、信息收集
⚠️ 需要谨慎：涉及账户操作、退款决策等有法律/财务风险的场景
❌ 做不到：实时数据查询（余额、物流）、需要授权的操作（无法接系统）

第三步：给出可落地的方案 推荐"AI 优先 + 人工兜底"的分层架构：

80% 的标准问题由 AI 自动回答（有知识库支撑）
15% 的复杂问题 AI 给出参考答案，人工确认后发出
5% 的高风险场景直接转人工

这样既实现了降本目标，又规避了"AI 答错导致投诉"的风险。

④ 前沿加分回答

大模型幻觉问题在客服场景是真实痛点。可以引入"置信度机制"：当 RAG 召回文档相似度低于阈值时，AI 主动说"我不确定，帮您转接人工"，而不是强行生成一个可能错误的答案。这在金融、医疗等高风险行业已经成为标配设计。

⑤ 常见踩坑点

❌ 直接拒绝："大模型做不到这个"，没有提供替代方案，会伤害合作关系
❌ 全部答应，然后上线后因为效果不达预期被追责
❌ 技术解释太深，业务方听不懂，沟通失败

⑥ 回答策略

开场句推荐：「我会先把业务目标拆出来，再对应到大模型能做/能辅助/不能做的三个区间，给出分层方案。」

时间分配：探清需求（30秒）→ 能力边界说明（1.5分钟）→ 落地方案（1分钟）→ 风险兜底（30秒）。
追问预判：「如果业务方坚持要'100%准确'怎么办？」——说明'100%准确'在任何 AI 系统（包括人工客服）中都不存在，引导对齐 SLA（如 95% 准确率 + 人工兜底覆盖剩余 5%）。

Q6：你如何设计 AI 产品的用户体验，和传统产品有什么不同？

① 题目 设计 AI 产品 UX 和传统产品最大的不同是什么？请举例说明你的设计思路。

② 押题依据 AI 产品的不确定性、延迟感、幻觉等特性，带来了全新的 UX 挑战。这道题考察你是否有 AI-first 的设计思维。

③ 标准答案

传统产品 UX 核心是"确定性"——用户点击按钮，期望得到固定结果。AI 产品 UX 核心是"管理不确定性"。

五大差异点：

等待体验：AI 生成需要时间，需要用流式输出（Streaming）减少感知等待，同时给出进度提示
错误处理：AI 会犯错，界面需要设计"这个回答有用吗？"反馈机制，让用户能纠错
透明度设计：用户需要知道 AI 在"想什么"——Agent 场景要展示思考步骤；RAG 场景要展示引用来源
用户预期管理：在 onboarding 阶段就说清楚 AI 能做什么、不能做什么，避免过度期望
操控感设计：用户需要感觉"我在主导"，而不是被 AI 牵着走——设计重试、编辑、撤销功能

具体案例： 在设计一款 AI 写作助手时，我会在生成过程中展示"正在检索资料…""正在组织结构…"等中间状态，比单纯的 loading 圈用户体验好 40%（减少放弃率）。

④ 前沿加分回答

"可控性"是 2025 年 AI UX 设计的核心主题。Anthropic 的研究显示，用户对 AI 产品的信任建立在"我能随时中断/修改"的感知上。设计趋势是 HITL（Human-in-the-loop）显式化：在 Agent 执行高风险操作前，强制要求用户确认，而不是让 AI 自动执行完再让用户复查。

⑤ 常见踩坑点

❌ 直接套用传统产品设计思维，忽略 AI 的非确定性特征
❌ 只讲 UI 细节，没有上升到设计原则层面
❌ 没有提"透明度"——这是 AI 产品 UX 最核心的差异点

⑥ 回答策略

开场句推荐：「AI 产品 UX 和传统产品最大的差异在于处理不确定性，我从五个维度来说。」

时间分配：差异框架（2分钟）→ 具体案例（1分钟）→ 前沿趋势（30秒）。
追问预判：「AI 犯错了用户怎么办？」——设计分级纠错机制：轻错误用反馈按钮 + 自动学习；重错误触发人工审核通道。

Q7：Fine-tuning 和 RAG 如何选型？

① 题目 什么场景下应该选 Fine-tuning，什么场景下应该选 RAG？如果两者都用效果会更好吗？

② 押题依据 这是 AI 产品架构的核心选型题，几乎所有 B 端 AI 产品都面临这个决策。面试官考察你是否能在技术和业务之间做出合理判断。

③ 标准答案

维度	RAG	Fine-tuning
适用场景	知识频繁更新、文档量大、需要引用来源	输出风格固定、任务格式规范、需要特定领域语气
更新成本	低（更新文档即可）	高（需要重新训练）
透明度	高（可显示引用来源）	低（黑盒，难以追溯）
幻觉风险	中（受检索质量影响）	低（训练数据质量高时）
典型案例	企业知识库问答、法律条文查询	客服话术统一、代码风格规范

组合使用： RAG + Fine-tuning 并非"1+1=2"，组合有意义的场景是：

用 Fine-tuning 让模型掌握特定输出格式和专业领域语气
用 RAG 补充实时知识
典型案例：法律 AI 助手 = Fine-tuned on legal corpus（理解法律语言）+ RAG（检索最新法规）

④ 前沿加分回答

近年出现第三条路：In-Context Learning（ICL） + Long Context。随着模型上下文窗口扩大到 200K+，很多原本需要 Fine-tuning 的场景可以直接把所有示例和规则塞进 Prompt，成本更低、迭代更快。选型时可以先尝试 Prompt 工程，再考虑 RAG，最后才是 Fine-tuning。

⑤ 常见踩坑点

❌ 认为 Fine-tuning 一定比 RAG 效果好（实际上知识类任务 RAG 通常更优）
❌ 不提更新成本和运维复杂度，只从效果角度选型
❌ 不知道两者可以组合使用

⑥ 回答策略

开场句推荐：「我用一个决策框架来说：知识密集型用 RAG，风格/格式密集型用 Fine-tuning，复杂场景可以组合。」

时间分配：两者对比（1.5分钟）→ 组合方案（1分钟）→ 前沿补充（30秒）。
追问预判：「成本有限只能选一个怎么办？」——优先 RAG，门槛低、迭代快，Fine-tuning 等业务验证后再投入。

Q8：如何定义 AI 产品的核心指标体系？

① 题目 你负责一款 AI 编程助手产品，如何设计它的核心指标体系？北极星指标是什么？

② 押题依据 指标体系设计是 PM 必考题，AI 产品的特殊性在于需要同时追踪 AI 质量指标和业务指标，考察你能否设计完整的双轨指标体系。

③ 标准答案

北极星指标： 代码采纳率（Accepted Suggestions / Total Suggestions）

这个指标直接反映 AI 是否真正帮助了用户——用户接受 AI 建议意味着 AI 的建议是有价值的。

指标体系（三层）：

第一层：北极星指标
└── 代码采纳率（目标 >35%）

第二层：过程指标
├── AI 质量层
│   ├── 代码准确率（编译通过率、测试通过率）
│   ├── 建议相关性（用户主动触发 vs 被动展示的采纳率差异）
│   └── 首次建议延迟（<500ms 体验最佳）
├── 用户行为层
│   ├── 日活跃使用天数（WAU中使用AI的天数）
│   ├── AI 功能使用深度（仅补全 vs 也用解释/重构）
│   └── 用户留存率（30天）
└── 效率层
    ├── 用户编码速度提升（对照组对比）
    └── Bug 率变化（使用 AI vs 不使用）

第三层：业务指标
├── 付费转化率
├── 续费率
└── NPS

④ 前沿加分回答

GitHub Copilot 公布的数据显示其代码采纳率约 30%，开发者使用后生产力提升 55%。但"采纳率"有局限性：用户可能接受了有 bug 的代码，导致后续返工。更精准的指标是"有效采纳率"= 被采纳且最终进入 main branch 的代码比例。

⑤ 常见踩坑点

❌ 把"DAU"当北极星指标，没有反映 AI 核心价值
❌ 指标体系只有业务层，没有 AI 质量层
❌ 只有单向指标，没有反向指标（如删除 AI 生成代码的比率）

⑥ 回答策略

开场句推荐：「AI 产品指标我会分 AI 质量、用户行为、业务结果三层，北极星是代码采纳率。」

时间分配：北极星指标定义（30秒）→ 三层指标体系（2分钟）→ 反向指标和局限性（30秒）。
追问预判：「采纳率上不去怎么做？」——拆解漏斗：是建议不准确（模型问题）？建议出现太晚（延迟问题）？建议打断了工作流（UX 问题）？分别对应不同优化方向。

Q9：如何处理 AI 产品中的伦理和安全问题？

① 题目 你在负责的 AI 产品中如何处理用户数据隐私、AI 偏见和内容安全问题？

② 押题依据 AI 伦理和安全已成为监管重点，大厂面试必考。面试官考察你是否有系统性的 AI 治理思维，而不只是"加个过滤器"。

③ 标准答案

我会从三个维度建立 AI 安全防护体系：

1. 数据隐私

数据最小化原则：只收集必要数据，明确告知用户用途
本地化处理：敏感数据（如医疗、金融）优先端侧推理，不上传云端
数据留存控制：用户对话记录默认不用于模型训练，需要用户主动授权
合规：GDPR/《个人信息保护法》要求的数据删除权、可解释权

2. 内容安全

输入过滤：关键词过滤 + 意图识别，拦截明显违规请求
输出审核：对敏感类目（暴力、歧视、违法信息）进行后处理过滤
分级策略：C 端用户严格过滤，B 端专业用户（如安全研究员）可以有白名单
人工审核兜底：高风险类目 AI 判断置信度低时转人工

3. AI 偏见

数据层：训练/测试数据覆盖多样化人群，避免特定群体欠表示
评估层：建立公平性指标（如不同性别/地域用户的满意度差异监控）
反馈层：用户可以举报偏见内容，建立快速响应机制

④ 前沿加分回答

EU AI Act（2024 年生效）将 AI 系统按风险等级分类：高风险系统（医疗、信贷评分、招聘）需要进行强制性风险评估和登记。作为 PM，在立项阶段就需要判断产品的 AI Act 合规要求，避免上线后被迫整改。国内的《生成式人工智能服务管理暂行办法》也有类似要求。

⑤ 常见踩坑点

❌ 只提"加过滤器"，没有体系化的治理思路
❌ 只提技术手段，忽略合规法律要求
❌ 把 AI 偏见当"小问题"，没有提监控和反馈机制

⑥ 回答策略

开场句推荐：「我会从数据隐私、内容安全、AI 偏见三个维度来建立防护体系，每层有不同的应对策略。」

时间分配：三个维度各1分钟，共3分钟，前沿法规补充30秒。
追问预判：「用户要求删除所有对话数据怎么处理？」——需要在产品设计阶段就实现数据可删除性，包括向量数据库中的 Embedding 也要能按用户 ID 删除。

Q10：请介绍一个你主导的 AI 产品从 0 到 1 的经历。

① 题目 请介绍一个你从 0 到 1 主导过的 AI 产品，遇到了哪些挑战，你是如何解决的？

② 押题依据 终极综合考察题，考察你的项目经验、产品思维、技术理解、跨团队协作能力。这道题没有标准答案，但有标准的答题框架。

③ 标准答案

推荐使用 STAR 变体框架（Situation → Task → Action → Result → Learning）：

结构模板：

背景（30秒）：产品背景、用户群体、要解决的核心问题
我的角色（15秒）：我负责哪些，团队有哪些人
关键决策（2分钟）：面临哪些关键选择（技术选型、功能边界、优先级），我是怎么决策的
遇到的挑战（1分钟）：最难的 1-2 个问题，具体是什么，怎么解的
结果（30秒）：核心数据/指标，用数字说话
反思（30秒）：如果重来一次，我会改变什么

注意事项：

选一个真实项目，细节越具体越好（不要说"某个项目"）
数据要真实，不要夸大（面试官可能追问细节）
重点放在"你的判断和决策"，而不只是"做了什么事"
主动提及 AI 特有的挑战（幻觉处理、评估体系、用户信任建立）

④ 前沿加分回答

在介绍项目时，可以主动提及你在产品设计中如何处理"AI 不确定性"——比如如何向用户透明展示 AI 置信度、如何设计 human-in-the-loop 流程、如何通过数据飞轮持续提升模型质量。这些是 AI 产品 PM 区别于传统 PM 的核心能力证明。

⑤ 常见踩坑点

❌ 讲故事代替讲决策——说了很多"我们做了什么"，但没有"为什么这样决策"
❌ 没有数据，全是定性描述（"用户反馈很好"）
❌ 遇到挑战时给出模糊解法（"我们调整了策略"），没有具体说怎么调
❌ 忘了提 AI 特有挑战，和传统产品经历没有区别

⑥ 回答策略

开场句推荐：「我介绍一个[产品名]的案例，当时面临的核心挑战是[X]，我来说说我是怎么做决策的。」

时间分配：按 STAR 框架，4-5 分钟为宜，不要超过 6 分钟。
追问预判：「你提到的指标提升，是否可能受到其他因素影响？」——主动承认可能存在的变量，说明你如何控制变量（如 A/B 测试设计）。

学习建议

每道题建议先用 5 分钟独立作答，再对照标准答案找差距。重点不是背答案，而是理解为什么这样回答，以及如何把这些框架融入自己的真实经历。

必考题精讲 ​

Q1：请介绍一下 RAG（检索增强生成）的原理，以及作为 PM 你如何评估一个 RAG 系统的效果？ ​

Q2：什么是 Agent？请描述一个你设计过或构想过的 AI Agent 产品。 ​

Q3：如何设计大模型产品的评估体系？ ​

Q4：Prompt Engineering 有哪些核心技巧？你在产品中如何管理 Prompt？ ​

Q5：如何向非技术的业务方讲清楚大模型的能力边界？ ​

Q6：你如何设计 AI 产品的用户体验，和传统产品有什么不同？ ​

Q7：Fine-tuning 和 RAG 如何选型？ ​

Q8：如何定义 AI 产品的核心指标体系？ ​

Q9：如何处理 AI 产品中的伦理和安全问题？ ​

Q10：请介绍一个你主导的 AI 产品从 0 到 1 的经历。 ​

必考题精讲

Q1：请介绍一下 RAG（检索增强生成）的原理，以及作为 PM 你如何评估一个 RAG 系统的效果？

Q2：什么是 Agent？请描述一个你设计过或构想过的 AI Agent 产品。

Q3：如何设计大模型产品的评估体系？

Q4：Prompt Engineering 有哪些核心技巧？你在产品中如何管理 Prompt？

Q5：如何向非技术的业务方讲清楚大模型的能力边界？

Q6：你如何设计 AI 产品的用户体验，和传统产品有什么不同？

Q7：Fine-tuning 和 RAG 如何选型？

Q8：如何定义 AI 产品的核心指标体系？

Q9：如何处理 AI 产品中的伦理和安全问题？

Q10：请介绍一个你主导的 AI 产品从 0 到 1 的经历。