框架与生态地图

面试中被问到"你们用什么技术栈"时，你需要能聊清楚为什么选这个而不是那个。

一、模型供应商

国际主流

供应商	代表模型	优势	适用场景
OpenAI	GPT-4o / o3	生态最强，工具调用成熟	通用首选，代码生成
Anthropic	Claude 3.5 / 4.x	长上下文，指令遵循好，安全性强	长文档处理，企业合规
Google	Gemini 2.0	原生多模态，1M Context	视频/图像理解，Google 生态
Meta	Llama 3 / 4	开源免费，可私有化部署	成本敏感，数据合规
Mistral	Mistral Large	欧洲，合规友好	GDPR 场景

国内主流

供应商	代表模型	优势	适用场景
深度求索	DeepSeek-V3 / R1	性价比极高，推理能力强	成本敏感场景首选
阿里	Qwen2.5 / 3	中文理解强，多模态成熟	中文业务，阿里云生态
百度	ERNIE 4.5	知识图谱强，百度生态	搜索/知识类产品
字节	Doubao	字节生态，多模态	抖音/飞书生态产品
腾讯	Hunyuan	腾讯生态，长文本	微信生态，企业微信
智谱	GLM-4	国产先驱，工具调用	企业知识库

第三方推理平台（API 转发）

不想直接对接多家模型时，通过聚合平台统一调用：

平台	特点
SiliconFlow（硅基流动）	国内，价格低，兼容 OpenAI 格式
Together AI	国际，开源模型集中
Groq	极低延迟（自研 LPU 芯片）
OpenRouter	模型最全，统一 API

二、Agent 开发框架

代码框架（需要工程师）

框架	定位	优势	劣势	PM 认知要点
LangChain	通用 Agent 框架	生态最大，社区活跃	抽象层重，调试难	业界标准，但复杂度高
LlamaIndex	RAG 专精	数据连接器丰富	非 Agent 场景较弱	知识库场景首选
AutoGen（微软）	多 Agent 对话	灵活，适合复杂 Multi-Agent	上手曲线陡	微软生态
CrewAI	角色化多 Agent	角色/任务定义清晰	相对年轻	流程自动化场景
LangGraph	有状态 Agent 流程	可视化流程控制	需要 LangChain 基础	复杂工作流

低代码平台（PM 可直接上手）

平台	定位	优势	适用场景
Dify	开源 LLM 应用平台	可自部署，功能最全	企业内部，数据合规
Coze（扣子）	字节系 Bot 平台	生态插件多，上手快	快速验证，消费端
FastGPT	知识库问答平台	RAG 专精，中文友好	企业知识库
Flowise	开源可视化流程	免费，LangChain 可视化	技术团队快速原型
n8n	自动化工作流	非 AI 工具集成强	企业流程自动化

PM 建议：用 Dify 或 Coze 搭一个最小 Demo 验证想法，成本极低，无需工程师。

三、向量数据库（RAG 必用）

数据库	类型	优势	适用场景
Pinecone	托管云服务	零运维，开箱即用	快速上线，中小规模
Weaviate	开源/托管	多模态支持好	图文混合检索
Milvus	开源	高性能，大规模	亿级向量，企业级
Chroma	开源轻量	本地运行简单	开发测试，小规模
pgvector	PostgreSQL 插件	复用现有 PG	已有 PG 基础设施

四、AI 应用基础设施

Prompt 管理

工具	作用
LangSmith	LangChain 官方，Prompt 版本管理 + 追踪
PromptLayer	通用，Prompt 版本化 + 分析
Helicone	轻量 API 代理，日志 + 成本分析

评估与测试

工具	作用
RAGAS	RAG 系统专项评估框架
DeepEval	通用 LLM 评估，支持多指标
Braintrust	云端评估平台，CI/CD 集成

监控与可观测性

工具	作用
LangFuse	开源，完整 LLM 应用追踪
Arize Phoenix	可视化 LLM 调试
Weights & Biases	ML 实验追踪，支持 LLM

五、选型决策树

面试被问"你们为什么选这个框架"时，这里是你的思路来源。

模型选型

你的场景在国内部署？
├── 是 → 数据合规要求高（金融/政府/医疗）？
│        ├── 是 → 私有化部署：Qwen / GLM-4 / DeepSeek（开源可本地跑）
│        └── 否 → 性价比优先：DeepSeek API > 通义千问 API > 豆包 API
└── 否 → 需要最强推理能力？
         ├── 是 → Claude Opus / GPT-4o / o3（成本高）
         └── 否 → 通用任务：Claude Sonnet / GPT-4o-mini（性价比佳）

补充判断维度：

长文档（>100K tokens）→ Claude（200K）或 Gemini（1M）
代码生成专项 → Claude Sonnet / GPT-4o / DeepSeek-V3
中文理解优先 → Qwen 系列 / DeepSeek

Agent 框架选型

团队有工程师资源吗？
├── 否 → 用低代码平台：
│        ├── 快速验证/消费端 → Coze（扣子）
│        ├── 企业数据合规/私有化 → Dify
│        └── 企业知识库专项 → FastGPT
└── 是 → 场景是什么？
         ├── RAG / 知识库问答 → LlamaIndex（数据连接器最丰富）
         ├── 单 Agent + 工具调用 → LangChain（生态最大，文档最全）
         ├── 复杂多步工作流（有状态） → LangGraph（可视化流程控制）
         └── 多 Agent 协作 → AutoGen（微软，对话式）或 CrewAI（角色化任务）

常见误区：

不要因为 LangChain 最出名就默认用它——它的抽象层很重，简单场景反而增加调试难度
CrewAI 适合"角色分工明确"的场景（如：研究员→写作员→审校员），不适合高度动态的任务

向量数据库选型

数据规模多大？
├── 开发/测试阶段 → Chroma（本地，零配置）
├── 中小规模上线（<千万向量） → Pinecone（托管，省运维）
├── 已有 PostgreSQL → pgvector（复用基础设施，无需新引入）
├── 亿级向量/高并发 → Milvus（高性能，需运维能力）
└── 需要多模态（图文混合检索） → Weaviate

RAG vs Fine-tuning 决策

这是面试高频考点，务必能清晰说明选择理由：

场景	推荐方案	理由
知识库频繁更新（每周/每天）	RAG	Fine-tuning 重训成本太高
知识库相对稳定，需要极低延迟	Fine-tuning + 少量 RAG	减少实时检索
需要固定输出格式/风格	Fine-tuning	Prompt 控制不够稳定
领域知识超出模型训练数据	RAG	模型不知道的内容只能靠检索补充
通用能力不足（模型太弱）	Fine-tuning	补强基础能力

面试标准答案框架：

"默认选 RAG，理由是灵活、可更新、透明。只有在三种情况下叠加 Fine-tuning：①需要固定输出格式 ②领域语言风格独特 ③通用模型基础能力不足。两者不是非此即彼，生产环境里 RAG + 轻量 Fine-tuning 组合很常见。"

六、面试中怎么聊技术栈

Q：你们产品用了什么 AI 框架？

好的回答结构：

"我们用 [框架]，选择它的原因是 [具体需求]。当时对比了 [备选方案]，放弃的原因是 [约束条件]。目前最大的挑战是 [痛点]，我们在考虑 [改进方向]。"

Q：RAG 还是 Fine-tuning？

"RAG 是我们的默认选择，原因是知识库更新频率高（每周更新），Fine-tuning 的维护成本太高。只有在需要固定输出格式/风格的场景，才考虑在 RAG 基础上叠加轻量 Fine-tuning。"

框架与生态地图 ​

一、模型供应商 ​

国际主流 ​

国内主流 ​

第三方推理平台（API 转发） ​

二、Agent 开发框架 ​

代码框架（需要工程师） ​

低代码平台（PM 可直接上手） ​

三、向量数据库（RAG 必用） ​

四、AI 应用基础设施 ​

Prompt 管理 ​

评估与测试 ​

监控与可观测性 ​

五、选型决策树 ​

模型选型 ​

Agent 框架选型 ​

向量数据库选型 ​

RAG vs Fine-tuning 决策 ​

六、面试中怎么聊技术栈 ​

延伸阅读 ​

框架与生态地图

一、模型供应商

国际主流

国内主流

第三方推理平台（API 转发）

二、Agent 开发框架

代码框架（需要工程师）

低代码平台（PM 可直接上手）

三、向量数据库（RAG 必用）

四、AI 应用基础设施

Prompt 管理

评估与测试

监控与可观测性

五、选型决策树

模型选型

Agent 框架选型

向量数据库选型

RAG vs Fine-tuning 决策

六、面试中怎么聊技术栈

延伸阅读