Skip to content

框架与生态地图

面试中被问到"你们用什么技术栈"时,你需要能聊清楚为什么选这个而不是那个。


一、模型供应商

国际主流

供应商代表模型优势适用场景
OpenAIGPT-4o / o3生态最强,工具调用成熟通用首选,代码生成
AnthropicClaude 3.5 / 4.x长上下文,指令遵循好,安全性强长文档处理,企业合规
GoogleGemini 2.0原生多模态,1M Context视频/图像理解,Google 生态
MetaLlama 3 / 4开源免费,可私有化部署成本敏感,数据合规
MistralMistral Large欧洲,合规友好GDPR 场景

国内主流

供应商代表模型优势适用场景
深度求索DeepSeek-V3 / R1性价比极高,推理能力强成本敏感场景首选
阿里Qwen2.5 / 3中文理解强,多模态成熟中文业务,阿里云生态
百度ERNIE 4.5知识图谱强,百度生态搜索/知识类产品
字节Doubao字节生态,多模态抖音/飞书生态产品
腾讯Hunyuan腾讯生态,长文本微信生态,企业微信
智谱GLM-4国产先驱,工具调用企业知识库

第三方推理平台(API 转发)

不想直接对接多家模型时,通过聚合平台统一调用:

平台特点
SiliconFlow(硅基流动)国内,价格低,兼容 OpenAI 格式
Together AI国际,开源模型集中
Groq极低延迟(自研 LPU 芯片)
OpenRouter模型最全,统一 API

二、Agent 开发框架

代码框架(需要工程师)

框架定位优势劣势PM 认知要点
LangChain通用 Agent 框架生态最大,社区活跃抽象层重,调试难业界标准,但复杂度高
LlamaIndexRAG 专精数据连接器丰富非 Agent 场景较弱知识库场景首选
AutoGen(微软)多 Agent 对话灵活,适合复杂 Multi-Agent上手曲线陡微软生态
CrewAI角色化多 Agent角色/任务定义清晰相对年轻流程自动化场景
LangGraph有状态 Agent 流程可视化流程控制需要 LangChain 基础复杂工作流

低代码平台(PM 可直接上手)

平台定位优势适用场景
Dify开源 LLM 应用平台可自部署,功能最全企业内部,数据合规
Coze(扣子)字节系 Bot 平台生态插件多,上手快快速验证,消费端
FastGPT知识库问答平台RAG 专精,中文友好企业知识库
Flowise开源可视化流程免费,LangChain 可视化技术团队快速原型
n8n自动化工作流非 AI 工具集成强企业流程自动化

PM 建议:用 Dify 或 Coze 搭一个最小 Demo 验证想法,成本极低,无需工程师。


三、向量数据库(RAG 必用)

数据库类型优势适用场景
Pinecone托管云服务零运维,开箱即用快速上线,中小规模
Weaviate开源/托管多模态支持好图文混合检索
Milvus开源高性能,大规模亿级向量,企业级
Chroma开源轻量本地运行简单开发测试,小规模
pgvectorPostgreSQL 插件复用现有 PG已有 PG 基础设施

四、AI 应用基础设施

Prompt 管理

工具作用
LangSmithLangChain 官方,Prompt 版本管理 + 追踪
PromptLayer通用,Prompt 版本化 + 分析
Helicone轻量 API 代理,日志 + 成本分析

评估与测试

工具作用
RAGASRAG 系统专项评估框架
DeepEval通用 LLM 评估,支持多指标
Braintrust云端评估平台,CI/CD 集成

监控与可观测性

工具作用
LangFuse开源,完整 LLM 应用追踪
Arize Phoenix可视化 LLM 调试
Weights & BiasesML 实验追踪,支持 LLM

五、选型决策树

面试被问"你们为什么选这个框架"时,这里是你的思路来源。

模型选型

你的场景在国内部署?
├── 是 → 数据合规要求高(金融/政府/医疗)?
│        ├── 是 → 私有化部署:Qwen / GLM-4 / DeepSeek(开源可本地跑)
│        └── 否 → 性价比优先:DeepSeek API > 通义千问 API > 豆包 API
└── 否 → 需要最强推理能力?
         ├── 是 → Claude Opus / GPT-4o / o3(成本高)
         └── 否 → 通用任务:Claude Sonnet / GPT-4o-mini(性价比佳)

补充判断维度

  • 长文档(>100K tokens)→ Claude(200K)或 Gemini(1M)
  • 代码生成专项 → Claude Sonnet / GPT-4o / DeepSeek-V3
  • 中文理解优先 → Qwen 系列 / DeepSeek

Agent 框架选型

团队有工程师资源吗?
├── 否 → 用低代码平台:
│        ├── 快速验证/消费端 → Coze(扣子)
│        ├── 企业数据合规/私有化 → Dify
│        └── 企业知识库专项 → FastGPT
└── 是 → 场景是什么?
         ├── RAG / 知识库问答 → LlamaIndex(数据连接器最丰富)
         ├── 单 Agent + 工具调用 → LangChain(生态最大,文档最全)
         ├── 复杂多步工作流(有状态) → LangGraph(可视化流程控制)
         └── 多 Agent 协作 → AutoGen(微软,对话式)或 CrewAI(角色化任务)

常见误区

  • 不要因为 LangChain 最出名就默认用它——它的抽象层很重,简单场景反而增加调试难度
  • CrewAI 适合"角色分工明确"的场景(如:研究员→写作员→审校员),不适合高度动态的任务

向量数据库选型

数据规模多大?
├── 开发/测试阶段 → Chroma(本地,零配置)
├── 中小规模上线(<千万向量) → Pinecone(托管,省运维)
├── 已有 PostgreSQL → pgvector(复用基础设施,无需新引入)
├── 亿级向量/高并发 → Milvus(高性能,需运维能力)
└── 需要多模态(图文混合检索) → Weaviate

RAG vs Fine-tuning 决策

这是面试高频考点,务必能清晰说明选择理由:

场景推荐方案理由
知识库频繁更新(每周/每天)RAGFine-tuning 重训成本太高
知识库相对稳定,需要极低延迟Fine-tuning + 少量 RAG减少实时检索
需要固定输出格式/风格Fine-tuningPrompt 控制不够稳定
领域知识超出模型训练数据RAG模型不知道的内容只能靠检索补充
通用能力不足(模型太弱)Fine-tuning补强基础能力

面试标准答案框架

"默认选 RAG,理由是灵活、可更新、透明。只有在三种情况下叠加 Fine-tuning:①需要固定输出格式 ②领域语言风格独特 ③通用模型基础能力不足。两者不是非此即彼,生产环境里 RAG + 轻量 Fine-tuning 组合很常见。"


六、面试中怎么聊技术栈

Q:你们产品用了什么 AI 框架?

好的回答结构:

"我们用 [框架],选择它的原因是 [具体需求]。当时对比了 [备选方案],放弃的原因是 [约束条件]。目前最大的挑战是 [痛点],我们在考虑 [改进方向]。"

Q:RAG 还是 Fine-tuning?

"RAG 是我们的默认选择,原因是知识库更新频率高(每周更新),Fine-tuning 的维护成本太高。只有在需要固定输出格式/风格的场景,才考虑在 RAG 基础上叠加轻量 Fine-tuning。"


延伸阅读

专为 AI 产品经理打造