AI 技术演进路线图

你将学到什么

AI 技术从 2017 到 2025 的四代演进
每一代技术解决了什么问题、适用什么场景
如何在面试中准确判断技术选型的合理性

为什么重要：理解演进方向，才能判断当下技术选型的合理性，避免在面试中说出"已经过时"的方案。

技术代际全景

2017     2019     2020     2022     2023     2024     2025+
  │        │        │        │        │        │        │
  ▼        ▼        ▼        ▼        ▼        ▼        ▼
Transformer → GPT-2 → GPT-3 → ChatGPT → GPT-4 → Agent → Multi-Agent
                               ↑
                        技术拐点：涌现能力出现

第一代：纯 LLM（2020-2022）

核心能力

强大的文本理解和生成能力，但仅限于训练数据范围内的知识。

四大局限

知识截止日期：不知道训练后发生的事情
无法调用外部工具：不能搜索、不能执行代码
上下文有限：长文档处理能力差（早期只有 4K Token）
容易幻觉：编造不存在的信息

代表产品

早期 ChatGPT、文心一言 1.0、Bard

PM 应用场景

✅ 文本生成、摘要、翻译
✅ 简单问答（基于常识）
❌ 需要最新信息的场景
❌ 需要精确数据的场景

面试加分点：能说出"涌现能力"（Emergent Abilities）这个概念——当模型参数超过某个临界点（约 100B），突然出现了训练时未明确教授的能力，如推理、代码生成。这是 GPT-3 到 ChatGPT 的关键跃升。

第二代：RAG（2022-2023）

解决的核心问题

LLM 的知识是"冻结"的，RAG 让模型在回答前先查阅最新资料。

RAG = Retrieval-Augmented Generation（检索增强生成）

工作原理

用户提问 → [向量搜索] → 检索相关文档片段
                              ↓
                    [Prompt 组装] = 问题 + 检索到的上下文
                              ↓
                    [LLM 生成答案]（基于检索内容，不靠记忆）

核心组件

组件	作用	常见工具
向量数据库	存储文档的 Embedding	Pinecone / Milvus / Chroma
召回算法	语义相似度搜索	Cosine Similarity / BM25
Reranker	对召回结果二次排序	Cohere Rerank / BGE Reranker

RAG vs Fine-tuning：PM 决策框架

问题	RAG 适合	Fine-tuning 适合
需要引用最新数据	✅	❌
需要特定语气/格式	❌	✅
知识库经常更新	✅	❌
成本敏感	✅（成本低）	❌（成本高）
需要可解释性	✅（可引用来源）	❌

代表产品

企业知识库问答、AI 客服（接入产品手册）、Notion AI、Perplexity

常见踩坑：很多 PM 以为 RAG 能解决所有幻觉问题。实际上，如果检索到的文档质量差、或者检索不到相关内容，LLM 仍然会幻觉。RAG 的质量上限 = 知识库质量 × 检索准确率。

第三代：Agent（2023-2024）

核心跃升

从"回答问题"到"完成任务"。

能力对比表

能力	纯 LLM	RAG	Agent
生成文本	✅	✅	✅
检索知识	❌	✅	✅
调用 API	❌	❌	✅
多步规划	❌	❌	✅
自主重试	❌	❌	✅
操作文件/系统	❌	❌	✅

Tool Use（工具调用）是关键

Agent 把 LLM 变成"大脑"，外接"手脚"：

python

# 工具箱示例
tools = [
    search_web(query),           # 搜索互联网
    execute_code(code),          # 运行代码
    send_email(to, body),        # 发送邮件
    query_db(sql),               # 查询数据库
    create_file(path, content),  # 创建文件
]

代表产品

Cursor（代码 Agent）、Devin、Manus、Perplexity（搜索 Agent）

面试加分点：能区分 Copilot 和 Agent 的差异。Copilot 是"建议型"（AI 提供选项，人决策），Agent 是"执行型"（AI 自主完成任务）。大多数企业产品目前还是 Copilot，因为用户信任度和可靠性问题。

第四代：Multi-Agent（2024-2025）

为什么需要多 Agent？

单 Agent 的三大局限：

Context Window 有限：超长任务失败率高
技能单一：一个 Agent 难以同时擅长所有技能
并行效率低：串行执行速度慢

三种主要协作模式

模式 1：分工协作（Hierarchical）

主管 Agent（Orchestrator）
├── 研究 Agent（搜索 + 收集信息）
├── 写作 Agent（生成内容）
├── 审查 Agent（检查质量）
└── 发布 Agent（执行输出）

模式 2：流水线（Pipeline）

输入 → Agent A（预处理）→ Agent B（核心处理）→ Agent C（后处理）→ 输出

模式 3：竞争选优（Competition） 多个 Agent 独立完成同一任务，人工或评审 Agent 选最佳结果。

代表产品与框架

产品/框架	特点	适用场景
CrewAI	角色化多 Agent 框架	复杂任务分工
AutoGen（微软）	多 Agent 对话框架	协作式问题解决
Manus	国内多 Agent 产品	企业级任务自动化
Google Project Mariner	浏览器操作 Agent	Web 自动化

当前技术前沿（2025）

1. 长上下文与 KV Cache 优化

模型上下文越来越长（1M+ Token），但推理成本也在优化。

PM 关注点：长上下文不等于"无限记忆"，超长输入会导致"中间遗忘"（Lost in the Middle）问题。

2. 多模态 Agent

不只处理文字，还能看图、看视频、操作 UI（Computer Use）。

代表：Claude 3.5 Sonnet Computer Use、GPT-4V

3. 边缘推理（On-device AI）

手机、PC 本地运行小模型，隐私保护 + 低延迟。

代表：Apple Intelligence、Gemini Nano

4. Agent 安全与护栏

越来越多企业关注 Agent 的可控性：权限最小化、操作审计、回滚机制。

互动练习

练习 1：技术选型判断

场景：你负责一个企业内部知识库问答产品，需要回答公司政策、产品文档相关问题。

请判断以下技术方案的合理性：

使用 Fine-tuning 训练一个专属模型
使用 RAG + 向量数据库
使用 Multi-Agent 系统

查看答案

推荐方案 2（RAG）

理由：

✅ 企业政策和文档经常更新，RAG 可以实时更新知识库
✅ 成本低，无需重新训练模型
✅ 可引用来源，增强可信度
❌ Fine-tuning 知识截止，更新成本高
❌ Multi-Agent 过度设计，简单问答不需要多步协作

练习 2：演进趋势预测

根据技术演进规律，你认为 2026 年 AI 产品的主要趋势是什么？

提示：从成本、可靠性、用户信任三个维度思考。

查看参考答案

可能的趋势：

从 Agent 回归 Copilot：完全自主的 Agent 可靠性和信任问题难解决，更多产品会采用"AI 建议 + 人确认"模式
混合架构：小模型（边缘）+ 大模型（云端），平衡成本和能力
垂直领域专精：通用 Agent 难落地，垂直场景（代码、法律、医疗）的专用 Agent 更有价值
可解释性增强：用户需要知道 AI 为什么这么做，引用来源、推理步骤展示成为标配

面试答题模板

Q：RAG 和 Fine-tuning 怎么选？

结构化回答：

"主要看知识是否需要频繁更新。RAG 适合知识库经常变化的场景（产品文档、法规更新），成本低、好维护；Fine-tuning 适合固定风格/格式要求高的场景，但知识截止、更新成本高。
举个例子，企业客服知识库用 RAG，因为产品功能每月都在更新；但如果是训练一个特定语气的品牌文案生成器，Fine-tuning 更合适。
大多数企业场景优先 RAG，除非有明确的风格/格式要求。"

Q：现在 Agent 落地最大的挑战是什么？

结构化回答：

"三个核心挑战：
一是可靠性，多步执行中错误累积，生产稳定性比 Demo 差很多。比如一个 Agent 要完成 10 步操作，每步 95% 成功率，最终成功率只有 60%。
二是成本，复杂任务的 Token 消耗是普通对话的数十倍。一次 Agent 调用可能要几万 Token，成本是普通对话的 10-20 倍。
三是用户信任，用户不知道 Agent 在做什么，接受度低。这也是为什么现在大多数落地产品还是'Copilot'而非完全自主的 Agent。
我认为短期内，Copilot 模式（AI 建议 + 人确认）会是主流，完全自主的 Agent 只在低风险场景落地。"

检查点

在继续之前，确保你能回答：

[ ] 能说出 AI 技术四代演进的核心能力差异
[ ] 能判断 RAG vs Fine-tuning 的适用场景
[ ] 能解释为什么大多数产品还是 Copilot 而非 Agent
[ ] 能说出 Multi-Agent 的三种协作模式
[ ] 能识别技术选型中的"过度设计"问题

AI 技术演进路线图 ​

技术代际全景 ​

第一代：纯 LLM（2020-2022） ​

核心能力 ​

四大局限 ​

代表产品 ​

PM 应用场景 ​

第二代：RAG（2022-2023） ​

解决的核心问题 ​

工作原理 ​

核心组件 ​

RAG vs Fine-tuning：PM 决策框架 ​

代表产品 ​

第三代：Agent（2023-2024） ​

核心跃升 ​

能力对比表 ​

Tool Use（工具调用）是关键 ​

代表产品 ​

第四代：Multi-Agent（2024-2025） ​

为什么需要多 Agent？ ​

三种主要协作模式 ​

代表产品与框架 ​

当前技术前沿（2025） ​

1. 长上下文与 KV Cache 优化 ​

2. 多模态 Agent ​

3. 边缘推理（On-device AI） ​

4. Agent 安全与护栏 ​

互动练习 ​

面试答题模板 ​

Q：RAG 和 Fine-tuning 怎么选？ ​

Q：现在 Agent 落地最大的挑战是什么？ ​

检查点 ​

延伸阅读 ​

AI 技术演进路线图

技术代际全景

第一代：纯 LLM（2020-2022）

核心能力

四大局限

代表产品

PM 应用场景

第二代：RAG（2022-2023）

解决的核心问题

工作原理

核心组件

RAG vs Fine-tuning：PM 决策框架

代表产品

第三代：Agent（2023-2024）

核心跃升

能力对比表

Tool Use（工具调用）是关键

代表产品

第四代：Multi-Agent（2024-2025）

为什么需要多 Agent？

三种主要协作模式

代表产品与框架

当前技术前沿（2025）

1. 长上下文与 KV Cache 优化

2. 多模态 Agent

3. 边缘推理（On-device AI）

4. Agent 安全与护栏

互动练习

面试答题模板

Q：RAG 和 Fine-tuning 怎么选？

Q：现在 Agent 落地最大的挑战是什么？

检查点

延伸阅读