写在前面:

垂域落地路线(金融多轮对话):

•M1:单域RAG + 工具试算,Chain主路径 + 审核守门;LangGraph可视化与回放

•M2:引入Planner-Executor与反思;逐句引用核对;对抗样本与Schema异常注入

•M3:Teacher–Student在线旁路评测与Bandit路由;大/小模型双轮驱动

•M4:多域路由、合规知识图谱融合、全面SLA治理与成本优化

业界三种主流的多智能体架构类型:

层级式(管理者-工作者)

顺序式(基于链)

协作式(基于图)

高级 AI 应用的演进路径:

•从为单个代理配备工具开始(工具扩充模式);

•进而为代理增加计划能力以处理复杂任务(计划-任务-执行器模式);

•最终发展到由多个专业代理组成团队协同工作(多代理协作模式)。

多智能体概念框架

核心概念

图1

每个智能体由作为神经处理器的语言模型 m、当前目标 o、环境 e、输入感知 x 和相应的输出/行动 y 组成。核心焦点是协作渠道 C,它促进了智能体之间的协调和编排。

这些渠道由其参与者(所涉及的智能体)、类型、结构和策略来定义。

可分为几类:

图2

每个智能体 a 通过其系统提示 r 配备了不同的工具或能力。

•在场景 a) 中,智能体通过利用各自的专长(例如,写作、翻译、研究)进行合作,以实现一个共同的目标(学术写作)。

•在场景 b) 中,智能体为了各自的目标而相互竞争和辩论。

•在场景 (c) 的“竞合”(coopetition)关系中,智能体相互妥协,在某个方面竞争,而在另一个方面达成一致。

Agent之间通信方式:

图3

•图 (a),展示了中心化结构,该结构可被分为两种类型。

◦在第一种类型中,大语言模型(LLM)驻留在分布式智能体上,以 FedIT 为例。

◦在第二种类型中,大语言模型托管在一个中央智能体上,以 AutoAct 为例。

•图 (b),描绘了去中心化结构,以 AgentCF 为例。

•图 (c),代表了层级式结构,以 CAMEL 架构为例。

核心技术组件

       
组件 中心化编排 (Orchestration) 去中心化协作 (Choreography) 混合架构 (Hybrid)
控制流 严格中心化,串行为主 完全去中心化,事件驱动 中心化规划,去中心化执行
Planning 由中心控制器负责 分布式,各智能体自规划 核心组件。由一个专用Planner生成结构化计划(如DAG图)
Memory 集中在中心控制器 分布在各个智能体或共享工作区 分层记忆。包括全局共享Memory和智能体私有Memory
通信 中心与控制点对点通信 智能体间通过广播或共享状态通信 通过中心路由进行消息传递,高效且可追踪
功能表现 任务逻辑简单清晰 高度灵活,能涌现复杂行为 平衡了功能性和复杂性,最适合商业应用
性能表现 中心节点易成瓶颈 扩展性好,但冗余计算多 性能最优,支持并行执行,效率高
调试难度 容易 非常困难 中等(借助可视化工具,如LangGraph)

应用场景

来自AutoGen:

图4

一个示例:

图5

架构类型

常见的多智能体架构类型

链式编排(Chain / Pipeline)

•核心概念:固定顺序节点,上一环输出即下一环输入;线性流水线。

•流程示例:输入 → 预处理 → 检索 → 生成 → 审核 → 输出。

•优点:简单、可预测、低延迟、易上线与观测。

•局限:条件分支/循环困难;跨回合状态与错误恢复较弱。

•代表:LangChain Chains、LlamaIndex/Haystack Pipelines、SequentialChain。

•适用:简单到中等复杂度、路径稳定的任务。

计划-执行/层级式(Planner–Executor / Manager–Worker)

•核心概念:中心规划器生成子任务序列或子目标图;分派给执行者;可迭代再规划。

•流程示例:用户目标 → Planner 拆解 → Worker 执行(检索/工具/生成)→ 汇总与修订。

•优点:任务分解清晰,覆盖复杂目标;自然支持“专家协作”与再规划。

•局限:计划质量依赖模型;长对话中易计划漂移;需可执行性与回退机制。

•代表:ReAct、Plan-and-Execute、AutoGen Planner/Executor、CrewAI(Leader/Workers)、LLM-as-Planner。

•适用:复杂任务、多工具协同、需要显式计划的业务。

图/状态机(Graph / Stateful Orchestration)

•核心概念:节点=代理或功能;边=条件转移;共享状态对象贯穿全局;支持循环/分支/并发/重试。

•流程特征:状态驱动、动态路由;失败可重试/补偿;可灰度与回放。

•优点:最强控制力与可观测性;工程化与SLA友好。

•局限:建模与维护成本高;需良好的状态与运维体系。

•代表:LangGraph、Semantic Kernel Orchestration、Temporal/Argo + LLM。

•适用:高复杂度多轮对话、强合规/强SLA生产环境。

黑板/共享内存(Blackboard / Workspace)

•核心概念:各代理在共享黑板发布/消费中间结果与证据;调度器或事件驱动唤醒。

•优点:松耦合、易扩展、并发贡献友好;中间证据显式化,利于解释与回放。

•局限:一致性与冲突解决复杂;需额外审计与锁策略。

•代表:AutoGen(GroupChat + Shared Memory)、研究型黑板系统、OpenDevin风格工作台。

•适用:证据逐步汇聚、探索式协作。

群体协作/市场机制(Swarm / Cooperative / Auction)

•核心概念:多代理并行探索,竞标或投票/融合;路由器/仲裁器选择最优。

•优点:鲁棒性高、覆盖多策略;并行加速。

•局限:成本高,融合与一致性复杂,确定性弱。

•代表:Mixture-of-Agents、AutoGen 多代理对话、Router-Mix 研究范式。

•适用:方案多样性重要、需要容错和探索的场景。

辩论-裁判/宪法式(Debate / Critic / Constitutional)

•核心概念:多“辩手”提出方案,Critic/Referee 按规则/宪法评审并修订,直至通过门槛。

•优点:质量与安全显著提升;适合高风险领域。

•局限:时延与成本上升;裁判标准与提示需维护。

•代表:Anthropic Constitutional AI(Critique-and-Revise)、Self-Refine、LLM-as-Judge。

•适用:金融/医疗/法务等高审慎输出。

工具中心/MCP(Tool-centric / Function-calling / MCP)

•核心概念:工具为第一公民;代理完成意图识别→参数构造→工具编排→结果解释。

•优点:与现有系统集成顺滑;权限与审计边界清晰;可治理。

•局限:强依赖工具契约、参数验证、回滚/补偿与幂等。

•代表:OpenAI/Anthropic Function Calling、MCP(Model Context Protocol)、LangChain Tools、SK Plugins。

•适用:系统自动化、业务办理、数据/交易类强工具任务。

多Agent编排方式

顺序业务流程 (Sequential Orchestration)

图6

这是最直接的一种多代理协作方式,类似于工厂里的流水线。

核心理念:将一个复杂的任务分解成多个连续的阶段,每个阶段由一个专门的代理负责。前一个代理的输出直接作为后一个代理的输入。

工作流程

◦任务从第一个代理开始。

◦该代理完成后,将其结果传递给第二个代理。

◦第二个代理基于收到的结果继续工作,然后传递给第三个代理,以此类推。

◦整个过程呈线性,按预定顺序依次执行,直到最后一个代理完成最终任务。

文档中的例子:构建一个“自动化编码和测试”流程。

1.程序员代理接收需求并编写代码。

2.测试工程师代理接收代码,为其编写单元测试。

3.测试执行代理运行这些测试,并报告结果。

适用场景:流程固定、步骤有明确前后依赖关系的复杂任务。

并发业务流程 (Concurrent Orchestration)

图7

当任务的某些部分可以被独立、并行处理时,采用并发模式可以显著提高效率。

核心理念:将任务中可以并行执行的部分分派给不同的代理,让它们同时工作,最后再将它们的结果汇总。

工作流程

◦编排器识别出可以并行处理的子任务。

◦同时启动多个不同的代理,每个代理负责一个子任务。

◦等待所有并发执行的代理都完成后,收集它们各自的输出。

◦由一个“聚合代理”或编排器将这些分散的结果合并,形成一个统一的、完整的最终答案。

文档中的例子:回答“比较苹果和微软的最新收益公告”这个问题。

1.编排器同时启动两个代理。

2.代理 A负责查找并分析苹果公司的收益报告。

3.代理 B负责查找并分析微软公司的收益报告。

4.当 A 和 B 都完成后,聚合代理将两份分析报告进行比较和总结,得出最终答案。

适用场景:任务可以被分解为多个互不依赖的子任务,通过并行处理来缩短总耗时。

群聊业务流程 (Group Chat Orchestration)

图8

这是最灵活、最动态但也最复杂的协作方式,它模拟了一个人类团队围绕一个问题进行开放式讨论和协作的过程。

核心理念:所有代理都在一个共享的“聊天室”或上下文中进行交流。每个代理都可以看到其他代理的发言,并根据对话的进展决定自己何时以及如何介入。

工作流程

◦一个“管理员”或“元代理”发起群聊,并引入初始问题或任务。

◦所有专家代理都“监听”对话。

◦代理可以自主决定发言,或者由管理员根据需要“点名”某个代理发言。

◦对话持续进行,直到管理员判断任务已经完成或达到了预设的终止条件。

文档中的例子:一个包含命令代理文本编写代理安全代理等的群聊。

1.命令代理从用户那里接收指令。

2.它可能会调用文本编写代理来草拟回复。

3.安全代理会审查草拟的回复,确保其不包含敏感信息。

4.整个过程在共享的聊天记录中进行,所有代理都可见。

适用场景:需要多个专家进行动态、迭代式讨论才能解决的、没有固定流程的复杂问题。这是最有潜力但也最难控制的模式。

垂域多轮对话场景

垂域场景实现的路径,是一个重要课题。比如,以金融场景为例,

参考架构

角色与职责

•Router/Classifier:意图识别与风险分级。

•Planner:跨回合任务分解与步骤维护。

•RAG Agent:政策/产品/研究报告检索与证据聚合。

•Tool Agent:受权工具调用(账户查询、下单、转账、支付、额度调整等)。

•Critic/Compliance:合规、风险与安全审计(宪法/规则+模型判定)。

•Memory Manager:会话记忆、用户画像、会话态(交易上下文)。

•Orchestrator(LangGraph):状态机驱动转移、超时/重试/补偿、灰度。

状态与内存(Memory)

•短期对话记忆:最近 N 轮消息与摘要。

•长期业务态:用户ID/权限、风险等级、会话交易单、签名/授权状态。

•检索记忆:证据片段与来源元数据(doc_id、版本、时间)。

•运行时统计:尝试次数、工具返回码、fallback 标志。

•存储:Redis(会话态)、向量库(Milvus/PGV)用于 RAG、关系库存审计与订单。

工具与安全

•工具契约:严格的 JSON Schema/参数验证、幂等ID、时序约束。

•权限:细粒度 RBAC/ABAC,工具级令牌,业务白名单。

•安全闸:PII 脱敏、Prompt 注入防御、意图黑/白名单、金额/风险阈值强审。

•审计:每次工具调用均关联会话、代理、模型版本、参数回显与签名。

推荐控制流(LangGraph 为基座)

Router → Planner → RAG(若查询)/Tool(若操作)→ Critic/Compliance → 用户确认/签名 → 执行与回执→ 异常分支:重试/回滚/人工接管。

多智能实现路径

•低复杂度、强SLA入口:链式编排作为主路径(快),加“失败→图节点回退”保障。

•中高复杂度任务:计划-执行作为核心范式;配合图/状态机显式化路由、超时、重试与合规守门。

•高风险合规输出:在关键节点引入辩论/裁判或宪法式自检;引用对齐与适当性校验必备。

•工具密集型:以工具中心(或MCP)规范接入账户/账单/额度/下单等API,参数澄清与幂等缓存。

•协作创作/证据汇聚:引入黑板共享证据与中间结论,便于回放与审计。

推荐架构

Planner–Executor + 审核者(Supervisor)+ RAG与工具的双轨,并以LangGraph/Temporal做可视化DAG与回放。

•路由/入口

◦意图识别与权限校验(Router + Policy Guard)

•规划(Planner)

◦任务分解:是否需要检索?是否需要调用额度/账单/还款试算工具?

◦计划包含:子目标、所需证据、工具序列、合规模板

•执行(Executors)

◦Retrieval Agent:查询改写、召回、重排、去重、时间过滤

◦Tool Agent:调用账单/交易/额度/利率API;带重试与熔断

◦Writer Agent:结构化答复、带引用与免责声明

•审核(Supervisor/Validator)

◦合规/适当性检查、引用对齐、敏感词、禁语、拒答策略

•反思(Reflector,可选)

◦若验证失败,触发再检索/再生成,限次与预算

•记忆(Memory)

◦会话短期记忆(槽位/实体)、长期用户画像(权限受控)

◦证据黑板:本轮使用的来源、工具结果、风险点

•评测与治理(Agentic Eval)

◦节点级指标、端到端任务成功率、合规命中率、成本/时延分解

◦教师-学生奖励闭环(见结尾建议)

功能表现与性能取舍:

•质量优先路径:引入反思+审核,准确率/合规显著提升,但时延上升(适合高价值对话或人工在环)

•速度优先路径:直出或轻检索,低延迟低成本,但对复杂问法与合规边界敏感

•自适应策略:按意图/风险等级动态选择路径(Mixture-of-Policies)
  • 一个典型对话任务流示例(额度调整试算):

      1.Router判为“额度调整”,风险中等 → 走Planner Lane。
    
      2.Planner生成步骤:收集必要参数 → 账户权限校验 → 工具试算 → RAG匹配政策 → 生成答复 → 合规校验。
    
      3.Clarifier 追问缺失参数(如账龄、收入证明状态)。
    
      4.Tool Agent 调用“额度试算API”(重试/幂等)并返回可行区间。
    
      5.RAG 召回“额度调整政策/材料清单”,产出引用片段。
    
      6.Writer 生成答复:给出可行区间、所需材料、办理路径与时效;附引用与免责声明。
    
      7.Compliance Guard 校验禁语、逐句证据对齐;失败→Refine一次。
    
      8.Supervisor 终审并输出;若工具失败达到阈值 → 降级为“人工协助工单”。
    

框架与平台对比

框架对比

             
框架 架构重心 Memory/State Planning/路由 工具 & 生态 并发/容错 生产成熟度
LangChain 组件生态+Chains/Agents 会话/摘要,传参为主 ReAct/Plan‑and‑Execute 可用 Tools 丰富,RAG/评测齐全 需自建重试/补偿 成熟,入门低
LangGraph 状态机/图编排 显式全局 State 节点路由/条件边 复用 LangChain 工具 原生循环/分支/回放 强烈推荐做编排基座
AutoGen 多代理对话/回合管理 会话上下文为主 Planner/GroupChat 工具/代码执行友好 以对话为中心,容错一般 研究/原型强,生产需加固
CrewAI Leader‑Worker 协作 任务态/上下文 Leader 统筹 与 LangChain/LlamaIndex 兼容 需二次开发补齐 快速搭团队式原型
LlamaIndex RAG/路由 索引/记忆强 Router/Query Graph 文档/RAG最强项 结合工作流可用 做知识问答佳
Semantic Kernel Orchestration/Planner Memory/技能库 Planner/技能选择 .NET/企业集成强 结合企业中间件 金融 IT 生态友好
Anthropic(Claude+MCP) 宪法/批判/工具 会话/上下文 Critique‑and‑Revise/Computer Use MCP 标准化工具 安全对齐强 做合规与安全闸极佳

注:Anthropic并非“成套编排框架”,但其 Constitutional/Critic 模式、MCP 工具生态、Computer Use 能力非常适合充当“安全裁判+工具标准化”的关键组件。

展开如下:

•LangChain

◦优势:工具生态丰富、Chains/Agents齐全、社区样例多

◦局限:复杂多Agent状态与可视化有限;生产回放/灰度需自建

◦适合:快速原型、丰富工具对接

•LangGraph

◦优势:图式状态机编排、显式状态/边条件、易回放与可视化;适合多Agent协作与反思回路

◦局限:对企业级审计/多租治理需自扩展

◦适合:生产级多Agent的DAG/状态机落地

•AutoGen

◦优势:多Agent对话协作、组聊范式、共享记忆;实验性强

◦局限:强场景治理/SLA能力不足;对合规严苛场景需加强守门

◦适合:协作生成、研究与PoC

•Anthropic 多Agent/MCP

◦优势:MCP规范化工具接入与权限边界;Constitutional AI便于合规守护与反思修正

◦局限:生态锁定、对本地工具与私域集成需要适配

◦适合:强工具编排、安全边界清晰的企业落地

•Temporal/Argo + LLM

◦优势:企业级编排、重试/补偿/可溯;与服务网格/观测系统良好集成

◦局限:需要自建LLM适配层;开发复杂度高

◦适合:强SLA/强审计/强合规的生产环境

•DSPy

◦优势:面向“策略学习”的可编程提示与自动调参;易做Teacher–Student

◦局限:对大规模编排与可视化较弱

◦适合:研究与离线策略优化

组合建议(金融场景):

•编排:LangGraph/Temporal 负责DAG与状态

•能力:LangChain工具层 + Anthropic MCP规范化关键工具

•学习:DSPy/自研Eval引擎做Teacher–Student与参数调优

•观测:OpenTelemetry + ClickHouse/ELK;评测与回放平台自建

展开:LangGraph

LangGraph 是一种以“图(graph)”为中心的方式来构建、可视化和运行基于大语言模型(LLM)的应用和数据流的框架/工具集(注意:不同社区或公司对“LangGraph”命名的实现可能不同,下面是对常见图化 LLM 平台/框架的一般性总结)。

•核心理念是把 LLM 应用拆成节点(node)和边(edge):节点表示模型调用、数据处理、检索器、工具接口等;边表示数据或控制流。通过图可以直观组合、复用与监控整个流程。

核心概念(常见)

•节点(Node):图中的基本单元,例如 prompt 模板节点、调用 OpenAI/Anthropic/HF 模型的节点、向量检索器节点、工具/API 调用节点、数据清洗节点等。

•边/流(Edge/Flow):节点间的数据传递或控制依赖,定义执行顺序或并行关系。

•组件/模块(Component):可复用的子图或组件,便于封装常见子流程(如 RAG 流程、对话管理器)。

•执行器(Executor/Runtime):负责运行图,调度节点、管理并发、处理错误与重试。

•连接器(Connectors/Integrations):与外部系统对接的适配器,例如向量数据库(FAISS, Pinecone, Weaviate)、存储、第三方 API、模型提供商等。

•可视化界面:许多 LangGraph 风格的工具带可视化编辑器,用拖拽方式构建图、调试和观察执行日志。

典型功能与特性

•可视化编排:图形化编辑器,支持拖拽、连线、参数化 prompt。

•可重用与参数化:将常见子流程封装为组件并复用。

•多模型/多后端支持:能切换不同 LLM 提供商与本地模型。

•集成检索增强生成(RAG):内置或易于接入向量检索器与文档管道。

•版本与审计:记录图的版本、执行历史与输入/输出用于可观测性与回溯。

•并行/异步执行:对多步、并发请求有执行优化。

•插件/扩展:支持自定义节点或运行时扩展以对接业务系统。

预构建模版:

图9

LangGraph RAG框架:

图10

参考:

https://arxiv.org/abs/2501.06322

https://learn.microsoft.com/en-us/azure/architecture/ai-ml/guide/ai-agent-design-patterns

https://microsoft.github.io/autogen/0.2/docs/Use-Cases/agent_chat/#diverse-applications-implemented-with-autogen

https://www.langchain.com/langgraph

https://aistudio.baidu.com/blog/detail/735344982974341