Skip to content

AI 技术演进路线图

你将学到什么

  • AI 技术从 2017 到 2025 的四代演进
  • 每一代技术解决了什么问题、适用什么场景
  • 如何在面试中准确判断技术选型的合理性

为什么重要:理解演进方向,才能判断当下技术选型的合理性,避免在面试中说出"已经过时"的方案。


技术代际全景

2017     2019     2020     2022     2023     2024     2025+
  │        │        │        │        │        │        │
  ▼        ▼        ▼        ▼        ▼        ▼        ▼
Transformer → GPT-2 → GPT-3 → ChatGPT → GPT-4 → Agent → Multi-Agent

                        技术拐点:涌现能力出现

第一代:纯 LLM(2020-2022)

核心能力

强大的文本理解和生成能力,但仅限于训练数据范围内的知识。

四大局限

  1. 知识截止日期:不知道训练后发生的事情
  2. 无法调用外部工具:不能搜索、不能执行代码
  3. 上下文有限:长文档处理能力差(早期只有 4K Token)
  4. 容易幻觉:编造不存在的信息

代表产品

早期 ChatGPT、文心一言 1.0、Bard

PM 应用场景

  • ✅ 文本生成、摘要、翻译
  • ✅ 简单问答(基于常识)
  • ❌ 需要最新信息的场景
  • ❌ 需要精确数据的场景

面试加分点:能说出"涌现能力"(Emergent Abilities)这个概念——当模型参数超过某个临界点(约 100B),突然出现了训练时未明确教授的能力,如推理、代码生成。这是 GPT-3 到 ChatGPT 的关键跃升。


第二代:RAG(2022-2023)

解决的核心问题

LLM 的知识是"冻结"的,RAG 让模型在回答前先查阅最新资料。

RAG = Retrieval-Augmented Generation(检索增强生成)

工作原理

用户提问 → [向量搜索] → 检索相关文档片段

                    [Prompt 组装] = 问题 + 检索到的上下文

                    [LLM 生成答案](基于检索内容,不靠记忆)

核心组件

组件作用常见工具
向量数据库存储文档的 EmbeddingPinecone / Milvus / Chroma
召回算法语义相似度搜索Cosine Similarity / BM25
Reranker对召回结果二次排序Cohere Rerank / BGE Reranker

RAG vs Fine-tuning:PM 决策框架

问题RAG 适合Fine-tuning 适合
需要引用最新数据
需要特定语气/格式
知识库经常更新
成本敏感✅(成本低)❌(成本高)
需要可解释性✅(可引用来源)

代表产品

企业知识库问答、AI 客服(接入产品手册)、Notion AI、Perplexity

常见踩坑:很多 PM 以为 RAG 能解决所有幻觉问题。实际上,如果检索到的文档质量差、或者检索不到相关内容,LLM 仍然会幻觉。RAG 的质量上限 = 知识库质量 × 检索准确率。


第三代:Agent(2023-2024)

核心跃升

从"回答问题"到"完成任务"。

能力对比表

能力纯 LLMRAGAgent
生成文本
检索知识
调用 API
多步规划
自主重试
操作文件/系统

Tool Use(工具调用)是关键

Agent 把 LLM 变成"大脑",外接"手脚":

python
# 工具箱示例
tools = [
    search_web(query),           # 搜索互联网
    execute_code(code),          # 运行代码
    send_email(to, body),        # 发送邮件
    query_db(sql),               # 查询数据库
    create_file(path, content),  # 创建文件
]

代表产品

Cursor(代码 Agent)、Devin、Manus、Perplexity(搜索 Agent)

面试加分点:能区分 Copilot 和 Agent 的差异。Copilot 是"建议型"(AI 提供选项,人决策),Agent 是"执行型"(AI 自主完成任务)。大多数企业产品目前还是 Copilot,因为用户信任度和可靠性问题。


第四代:Multi-Agent(2024-2025)

为什么需要多 Agent?

单 Agent 的三大局限:

  1. Context Window 有限:超长任务失败率高
  2. 技能单一:一个 Agent 难以同时擅长所有技能
  3. 并行效率低:串行执行速度慢

三种主要协作模式

模式 1:分工协作(Hierarchical)

主管 Agent(Orchestrator)
├── 研究 Agent(搜索 + 收集信息)
├── 写作 Agent(生成内容)
├── 审查 Agent(检查质量)
└── 发布 Agent(执行输出)

模式 2:流水线(Pipeline)

输入 → Agent A(预处理)→ Agent B(核心处理)→ Agent C(后处理)→ 输出

模式 3:竞争选优(Competition) 多个 Agent 独立完成同一任务,人工或评审 Agent 选最佳结果。

代表产品与框架

产品/框架特点适用场景
CrewAI角色化多 Agent 框架复杂任务分工
AutoGen(微软)多 Agent 对话框架协作式问题解决
Manus国内多 Agent 产品企业级任务自动化
Google Project Mariner浏览器操作 AgentWeb 自动化

当前技术前沿(2025)

1. 长上下文与 KV Cache 优化

模型上下文越来越长(1M+ Token),但推理成本也在优化。

PM 关注点:长上下文不等于"无限记忆",超长输入会导致"中间遗忘"(Lost in the Middle)问题。

2. 多模态 Agent

不只处理文字,还能看图、看视频、操作 UI(Computer Use)。

代表:Claude 3.5 Sonnet Computer Use、GPT-4V

3. 边缘推理(On-device AI)

手机、PC 本地运行小模型,隐私保护 + 低延迟。

代表:Apple Intelligence、Gemini Nano

4. Agent 安全与护栏

越来越多企业关注 Agent 的可控性:权限最小化、操作审计、回滚机制。


互动练习

练习 1:技术选型判断

场景:你负责一个企业内部知识库问答产品,需要回答公司政策、产品文档相关问题。

请判断以下技术方案的合理性:

  1. 使用 Fine-tuning 训练一个专属模型
  2. 使用 RAG + 向量数据库
  3. 使用 Multi-Agent 系统
查看答案

推荐方案 2(RAG)

理由:

  • ✅ 企业政策和文档经常更新,RAG 可以实时更新知识库
  • ✅ 成本低,无需重新训练模型
  • ✅ 可引用来源,增强可信度
  • ❌ Fine-tuning 知识截止,更新成本高
  • ❌ Multi-Agent 过度设计,简单问答不需要多步协作

练习 2:演进趋势预测

根据技术演进规律,你认为 2026 年 AI 产品的主要趋势是什么?

提示:从成本、可靠性、用户信任三个维度思考。

查看参考答案

可能的趋势:

  1. 从 Agent 回归 Copilot:完全自主的 Agent 可靠性和信任问题难解决,更多产品会采用"AI 建议 + 人确认"模式
  2. 混合架构:小模型(边缘)+ 大模型(云端),平衡成本和能力
  3. 垂直领域专精:通用 Agent 难落地,垂直场景(代码、法律、医疗)的专用 Agent 更有价值
  4. 可解释性增强:用户需要知道 AI 为什么这么做,引用来源、推理步骤展示成为标配

面试答题模板

Q:RAG 和 Fine-tuning 怎么选?

结构化回答

"主要看知识是否需要频繁更新。RAG 适合知识库经常变化的场景(产品文档、法规更新),成本低、好维护;Fine-tuning 适合固定风格/格式要求高的场景,但知识截止、更新成本高。

举个例子,企业客服知识库用 RAG,因为产品功能每月都在更新;但如果是训练一个特定语气的品牌文案生成器,Fine-tuning 更合适。

大多数企业场景优先 RAG,除非有明确的风格/格式要求。"

Q:现在 Agent 落地最大的挑战是什么?

结构化回答

"三个核心挑战:

一是可靠性,多步执行中错误累积,生产稳定性比 Demo 差很多。比如一个 Agent 要完成 10 步操作,每步 95% 成功率,最终成功率只有 60%。

二是成本,复杂任务的 Token 消耗是普通对话的数十倍。一次 Agent 调用可能要几万 Token,成本是普通对话的 10-20 倍。

三是用户信任,用户不知道 Agent 在做什么,接受度低。这也是为什么现在大多数落地产品还是'Copilot'而非完全自主的 Agent。

我认为短期内,Copilot 模式(AI 建议 + 人确认)会是主流,完全自主的 Agent 只在低风险场景落地。"


检查点

在继续之前,确保你能回答:

  • [ ] 能说出 AI 技术四代演进的核心能力差异
  • [ ] 能判断 RAG vs Fine-tuning 的适用场景
  • [ ] 能解释为什么大多数产品还是 Copilot 而非 Agent
  • [ ] 能说出 Multi-Agent 的三种协作模式
  • [ ] 能识别技术选型中的"过度设计"问题

延伸阅读

专为 AI 产品经理打造