AI 技术演进路线图
你将学到什么
- AI 技术从 2017 到 2025 的四代演进
- 每一代技术解决了什么问题、适用什么场景
- 如何在面试中准确判断技术选型的合理性
为什么重要:理解演进方向,才能判断当下技术选型的合理性,避免在面试中说出"已经过时"的方案。
技术代际全景
2017 2019 2020 2022 2023 2024 2025+
│ │ │ │ │ │ │
▼ ▼ ▼ ▼ ▼ ▼ ▼
Transformer → GPT-2 → GPT-3 → ChatGPT → GPT-4 → Agent → Multi-Agent
↑
技术拐点:涌现能力出现第一代:纯 LLM(2020-2022)
核心能力
强大的文本理解和生成能力,但仅限于训练数据范围内的知识。
四大局限
- 知识截止日期:不知道训练后发生的事情
- 无法调用外部工具:不能搜索、不能执行代码
- 上下文有限:长文档处理能力差(早期只有 4K Token)
- 容易幻觉:编造不存在的信息
代表产品
早期 ChatGPT、文心一言 1.0、Bard
PM 应用场景
- ✅ 文本生成、摘要、翻译
- ✅ 简单问答(基于常识)
- ❌ 需要最新信息的场景
- ❌ 需要精确数据的场景
面试加分点:能说出"涌现能力"(Emergent Abilities)这个概念——当模型参数超过某个临界点(约 100B),突然出现了训练时未明确教授的能力,如推理、代码生成。这是 GPT-3 到 ChatGPT 的关键跃升。
第二代:RAG(2022-2023)
解决的核心问题
LLM 的知识是"冻结"的,RAG 让模型在回答前先查阅最新资料。
RAG = Retrieval-Augmented Generation(检索增强生成)
工作原理
用户提问 → [向量搜索] → 检索相关文档片段
↓
[Prompt 组装] = 问题 + 检索到的上下文
↓
[LLM 生成答案](基于检索内容,不靠记忆)核心组件
| 组件 | 作用 | 常见工具 |
|---|---|---|
| 向量数据库 | 存储文档的 Embedding | Pinecone / Milvus / Chroma |
| 召回算法 | 语义相似度搜索 | Cosine Similarity / BM25 |
| Reranker | 对召回结果二次排序 | Cohere Rerank / BGE Reranker |
RAG vs Fine-tuning:PM 决策框架
| 问题 | RAG 适合 | Fine-tuning 适合 |
|---|---|---|
| 需要引用最新数据 | ✅ | ❌ |
| 需要特定语气/格式 | ❌ | ✅ |
| 知识库经常更新 | ✅ | ❌ |
| 成本敏感 | ✅(成本低) | ❌(成本高) |
| 需要可解释性 | ✅(可引用来源) | ❌ |
代表产品
企业知识库问答、AI 客服(接入产品手册)、Notion AI、Perplexity
常见踩坑:很多 PM 以为 RAG 能解决所有幻觉问题。实际上,如果检索到的文档质量差、或者检索不到相关内容,LLM 仍然会幻觉。RAG 的质量上限 = 知识库质量 × 检索准确率。
第三代:Agent(2023-2024)
核心跃升
从"回答问题"到"完成任务"。
能力对比表
| 能力 | 纯 LLM | RAG | Agent |
|---|---|---|---|
| 生成文本 | ✅ | ✅ | ✅ |
| 检索知识 | ❌ | ✅ | ✅ |
| 调用 API | ❌ | ❌ | ✅ |
| 多步规划 | ❌ | ❌ | ✅ |
| 自主重试 | ❌ | ❌ | ✅ |
| 操作文件/系统 | ❌ | ❌ | ✅ |
Tool Use(工具调用)是关键
Agent 把 LLM 变成"大脑",外接"手脚":
# 工具箱示例
tools = [
search_web(query), # 搜索互联网
execute_code(code), # 运行代码
send_email(to, body), # 发送邮件
query_db(sql), # 查询数据库
create_file(path, content), # 创建文件
]代表产品
Cursor(代码 Agent)、Devin、Manus、Perplexity(搜索 Agent)
面试加分点:能区分 Copilot 和 Agent 的差异。Copilot 是"建议型"(AI 提供选项,人决策),Agent 是"执行型"(AI 自主完成任务)。大多数企业产品目前还是 Copilot,因为用户信任度和可靠性问题。
第四代:Multi-Agent(2024-2025)
为什么需要多 Agent?
单 Agent 的三大局限:
- Context Window 有限:超长任务失败率高
- 技能单一:一个 Agent 难以同时擅长所有技能
- 并行效率低:串行执行速度慢
三种主要协作模式
模式 1:分工协作(Hierarchical)
主管 Agent(Orchestrator)
├── 研究 Agent(搜索 + 收集信息)
├── 写作 Agent(生成内容)
├── 审查 Agent(检查质量)
└── 发布 Agent(执行输出)模式 2:流水线(Pipeline)
输入 → Agent A(预处理)→ Agent B(核心处理)→ Agent C(后处理)→ 输出模式 3:竞争选优(Competition) 多个 Agent 独立完成同一任务,人工或评审 Agent 选最佳结果。
代表产品与框架
| 产品/框架 | 特点 | 适用场景 |
|---|---|---|
| CrewAI | 角色化多 Agent 框架 | 复杂任务分工 |
| AutoGen(微软) | 多 Agent 对话框架 | 协作式问题解决 |
| Manus | 国内多 Agent 产品 | 企业级任务自动化 |
| Google Project Mariner | 浏览器操作 Agent | Web 自动化 |
当前技术前沿(2025)
1. 长上下文与 KV Cache 优化
模型上下文越来越长(1M+ Token),但推理成本也在优化。
PM 关注点:长上下文不等于"无限记忆",超长输入会导致"中间遗忘"(Lost in the Middle)问题。
2. 多模态 Agent
不只处理文字,还能看图、看视频、操作 UI(Computer Use)。
代表:Claude 3.5 Sonnet Computer Use、GPT-4V
3. 边缘推理(On-device AI)
手机、PC 本地运行小模型,隐私保护 + 低延迟。
代表:Apple Intelligence、Gemini Nano
4. Agent 安全与护栏
越来越多企业关注 Agent 的可控性:权限最小化、操作审计、回滚机制。
互动练习
练习 1:技术选型判断
场景:你负责一个企业内部知识库问答产品,需要回答公司政策、产品文档相关问题。
请判断以下技术方案的合理性:
- 使用 Fine-tuning 训练一个专属模型
- 使用 RAG + 向量数据库
- 使用 Multi-Agent 系统
查看答案
推荐方案 2(RAG)
理由:
- ✅ 企业政策和文档经常更新,RAG 可以实时更新知识库
- ✅ 成本低,无需重新训练模型
- ✅ 可引用来源,增强可信度
- ❌ Fine-tuning 知识截止,更新成本高
- ❌ Multi-Agent 过度设计,简单问答不需要多步协作
练习 2:演进趋势预测
根据技术演进规律,你认为 2026 年 AI 产品的主要趋势是什么?
提示:从成本、可靠性、用户信任三个维度思考。
查看参考答案
可能的趋势:
- 从 Agent 回归 Copilot:完全自主的 Agent 可靠性和信任问题难解决,更多产品会采用"AI 建议 + 人确认"模式
- 混合架构:小模型(边缘)+ 大模型(云端),平衡成本和能力
- 垂直领域专精:通用 Agent 难落地,垂直场景(代码、法律、医疗)的专用 Agent 更有价值
- 可解释性增强:用户需要知道 AI 为什么这么做,引用来源、推理步骤展示成为标配
面试答题模板
Q:RAG 和 Fine-tuning 怎么选?
结构化回答:
"主要看知识是否需要频繁更新。RAG 适合知识库经常变化的场景(产品文档、法规更新),成本低、好维护;Fine-tuning 适合固定风格/格式要求高的场景,但知识截止、更新成本高。
举个例子,企业客服知识库用 RAG,因为产品功能每月都在更新;但如果是训练一个特定语气的品牌文案生成器,Fine-tuning 更合适。
大多数企业场景优先 RAG,除非有明确的风格/格式要求。"
Q:现在 Agent 落地最大的挑战是什么?
结构化回答:
"三个核心挑战:
一是可靠性,多步执行中错误累积,生产稳定性比 Demo 差很多。比如一个 Agent 要完成 10 步操作,每步 95% 成功率,最终成功率只有 60%。
二是成本,复杂任务的 Token 消耗是普通对话的数十倍。一次 Agent 调用可能要几万 Token,成本是普通对话的 10-20 倍。
三是用户信任,用户不知道 Agent 在做什么,接受度低。这也是为什么现在大多数落地产品还是'Copilot'而非完全自主的 Agent。
我认为短期内,Copilot 模式(AI 建议 + 人确认)会是主流,完全自主的 Agent 只在低风险场景落地。"
检查点
在继续之前,确保你能回答:
- [ ] 能说出 AI 技术四代演进的核心能力差异
- [ ] 能判断 RAG vs Fine-tuning 的适用场景
- [ ] 能解释为什么大多数产品还是 Copilot 而非 Agent
- [ ] 能说出 Multi-Agent 的三种协作模式
- [ ] 能识别技术选型中的"过度设计"问题