AI Agent #
Created by: xiaowei Luo Created time: June 18, 2025 7:31 PM Category: Strategy doc Last edited by: xiaowei Luo Last updated time: June 18, 2025 7:31 PM
基础响应模式 (Basic Responder) #
核心特征:基于预设规则或简单模式匹配,执行固定回应或操作。
graph LR
User[User] --> Query{Query}
Query -->|Prompt| Deepseek[(deepseek<br>Large language<br>model)]
Deepseek -->|Response| LLM_response[(LLM<br>response)]
解释:用户输入查询,直接通过提示词(Prompt)发送给大型语言模型(LLM),模型生成简单响应并返回给用户。这是最基础的交互模式,模型仅根据输入生成文本,无额外逻辑处理。
场景示例:问答机器人
- 用户需求/咨询: 用户在聊天框输入:“预发环境的RocketMQ控制台怎么访问?”
- AI Agent行为: Agent匹配到关键词“RocketMQ,控制台”,从预设的FAQ库中找到对应的标准连接指南文档链接,并回复给用户。
- 说明: Agent不理解用户可能遇到的具体问题,只提供标准答案。无法处理复杂的查询或动态变化的状态。
路由选择模式 (Route Selector) #
核心特征:初步意图识别,将任务或查询路由到合适的处理单元或流程。
graph LR
User[User] --> Query{Query}
Query -->|Prompt| Router[(Route<br>Selector)]
Router -->|Route 1| Model1[(Model 1)]
Router -->|Route 2| Model2[(Model 2)]
Router -->|Route 3| Model3[(Model 3)]
Model1 -->|Response| Response_Aggregator[(Response<br>Aggregator)]
Model2 -->|Response| Response_Aggregator
Model3 -->|Response| Response_Aggregator
Response_Aggregator -->|Final Response| User
解释:用户输入后,路由选择器根据查询内容将任务分配给不同模型(如文本生成、数学计算、代码生成等)。各模型生成响应后,由聚合器整合结果并返回给用户。此模式支持多领域任务处理。
场景示例:多级知识库导航
- 用户需求/咨询: “我想了解一下如何查看线上MySQL是如何处理敏感数据的”
- AI Agent行为: Agent识别“MySQL”,将其路由到知识库中关于“MySQL”相关的知识库,并给出链接或摘要。
- 说明: Agent能把用户导向更具体的自助信息。
工具调用模式 (Tool Caller) #
核心特征:理解任务需求,调用外部工具/API获取信息或执行操作,并整合结果。
graph LR
User[User] --> Query{Query}
Query -->|Prompt| Agent[(AI<br>Agent)]
Agent -->|Tool Invocation| Tool[(External<br>Tool)]
Tool -->|Tool Result| Agent
Agent -->|Response| User
解释:AI代理分析用户需求后,调用外部工具(如搜索引擎、计算器、API等)获取数据或执行操作。工具结果返回后,代理整合信息生成最终响应。此模式增强了AI的实用性,使其能处理需要外部数据的任务。
场景示例:查询特定服务的使用情况
- 用户需求/咨询: “帮我查一下Redis 的大key。”
- AI Agent行为: Agent通过调用tools(如grafana或者redis mcp等)或远程执行命令的工具(redis-cli),获取指定redis服务器的大key或者热点key,并格式化后回复给用户。
- 说明: Agent能按需提取系统信息。
其他类似场景: 自动化故障诊断信息收集,
多代理协作模式 (Multi-Agent Collaboration) #
核心特征:多个专业Agent分工协作、通信,共同完成复杂目标。
graph LR
User[User] --> Query{Query}
Query -->|Prompt| Agent1[(Agent 1)]
Agent1 -->|Request| Agent2[(Agent 2)]
Agent2 -->|Request| Agent3[(Agent 3)]
Agent3 -->|Response| Agent2
Agent2 -->|Response| Agent1
Agent1 -->|Final Response| User
解释:多个AI代理协同工作,完成复杂任务。例如,Agent1负责任务分解,Agent2执行子任务,Agent3验证结果。代理间通过中间结果交互,最终由Agent1整合所有信息返回用户。此模式适合需要多步骤推理的任务。
场景示例:复杂故障报告的智能诊断与用户沟通
- 用户需求/咨询: “系统从早上开始就非常慢,而且经常报错,请帮忙看一下。”
- AI Agent行为:
- 用户交互Agent记录问题,并触发诊断协调Agent。
- 诊断协调Agent调动应用Agent(查日志、APM)、网络Agent(查延迟、丢包)、数据库Agent(查慢查询、连接数)等进行联合诊断。
- 在诊断过程中,用户交互Agent可以定期向用户提供进展更新:“我们正在检查应用服务器日志,初步发现X问题,预计还需要Y分钟定位…”或“数据库团队反馈目前连接正常,我们正在排查应用层…”。
- 找到原因后,用户交互Agent向用户解释故障原因、影响范围和预计恢复时间。
- 说明: 不仅是后台协作,还包括了在复杂问题处理过程中与用户的智能沟通和状态反馈。
其他类似场景: 告警抑制,变更评估
自主运行模式 (Autonomous Runner) #
核心特征:自主感知环境、规划、决策、行动、从经验中学习并适应变化,实现长期自主优化。
graph LR
User[User] --> Query{Query}
Query -->|Initial Prompt| Autonomous_System[(Autonomous<br>AI System)]
Autonomous_System -->|Sub-task 1| Sub_System1[(Sub-system 1)]
Autonomous_System -->|Sub-task 2| Sub_System2[(Sub-system 2)]
Autonomous_System -->|Sub-task 3| Sub_System3[(Sub-system 3)]
Sub_System1 -->|Result| Autonomous_System
Sub_System2 -->|Result| Autonomous_System
Sub_System3 -->|Result| Autonomous_System
Autonomous_System -->|Final Response| User
解释:完全自主的AI系统,能够独立规划、执行并管理复杂任务。用户输入后,系统自行分解任务,调用内部子系统(如分析、决策、执行模块)协同工作。每个子系统完成后返回结果,主系统整合所有信息生成最终响应。此模式接近人类自主决策水平。
其他类似场景: CDN调度,回源策略调整
一些要求(From Gemini)
从数据基础、技术与平台、流程与规范、人员与技能、治理与安全这五个更宏观的维度,来阐述在各个AI Agent阶段您需要做的准备工作:
通用基础准备 (贯穿所有阶段,但重要性随阶段递增):
- 明确的业务目标与场景选择: 清晰定义希望AI Agent解决哪些运维痛点,带来什么价值。从简单、高频、规则明确的场景入手。
- 高层支持与跨部门协作: AI Agent的引入往往需要多部门(运维、开发、安全、业务)的配合,高层支持至关重要。
- 迭代与反馈机制: 建立快速迭代和收集用户/运维反馈的机制,持续优化Agent的表现。
- 可观测性理念: 从一开始就考虑如何监控AI Agent自身的运行状态、决策过程和效果。
各阶段的具体准备工作 (扩展维度):
级别 1: 基础回应模式 (Basic Response Mode)
- 数据基础:
- 结构化FAQ库: 收集、整理并结构化常见的运维问题和标准答案。
- 简单规则集: 定义明确的触发条件和对应的固定响应/操作(如日志关键词->告警通知模板)。
- 基础CMDB信息: 至少有服务器列表、应用列表等基础资产信息。
- 技术与平台:
- 简单脚本库: 存放少量、固定的自动化脚本(如查询服务状态)。
- 通知集成: 配置与邮件、即时通讯工具(Slack、企业微信等)的集成。
- (可选) 简单RAG雏形: 搭建一个能对FAQ库进行关键词检索的系统。
- 流程与规范:
- FAQ更新流程: 建立FAQ的新增和更新维护流程。
- 告警通知规范: 定义告警信息的标准化格式和接收人。
- 人员与技能:
- 内容维护人员: 负责FAQ和规则集的日常维护。
- 基础脚本编写能力: 运维人员具备编写简单自动化脚本的能力。
- 治理与安全:
- *信息访问范围定义:**明确Agent可以访问和提供的基础信息范围。
级别 2: 路由选择模式 (Routing Selection Mode)
- 数据基础:
- 带意图标注的语料: 收集用户历史提问,并标注其意图,用于训练或配置意图识别模型。
- 运维知识图谱 (初级): 构建描述系统间依赖、故障模式与处理团队/SOP关联的简单知识图谱。
- CMDB数据质量提升: 确保CMDB中服务依赖、负责人、影响范围等信息的准确性。
- 技术与平台:
- 意图识别引擎: 引入或配置简单的意图识别模型/服务(可以是基于规则,也可以是简单NLP模型)。
- 决策树/路由逻辑引擎: 实现基于意图或告警特征的路由逻辑。
- ITSM/工单系统集成: 实现Agent与工单系统的API对接。
- RAG能力初步应用: 利用RAG辅助意图理解和知识库导航。
- 流程与规范:
- 告警分级与路由策略: 定义不同告警级别、类型的分发规则和SLA。
- 用户请求分类标准: 建立用户自助服务请求的分类标准。
- 人员与技能:
- 数据标注能力: 培养运维人员对语料进行意图标注的能力。
- 流程设计能力: 设计和优化请求路由流程。
- 治理与安全:
- 路由准确性监控: 监控Agent路由的准确率和用户满意度。
- 数据隐私保护: 在路由过程中注意用户数据的隐私保护。
级别 3: 工具调用模式 (Tool Invocation Mode)
- 数据基础:
- 全面的运维文档向量化 (RAG核心): 将SOP、API文档、故障排查手册、历史解决方案等全面数字化并构建高质量向量知识库。
- 工具/API元数据: 清晰描述每个可调用工具/API的功能、输入参数、输出格式、前置条件、潜在风险等。
- 技术与平台:
- LLM/NLP平台: 引入具备较强自然语言理解和生成能力的模型,用于理解用户需求、选择工具、生成调用参数、理解工具输出。
- RAG系统: 深度集成RAG,为LLM提供动态的、上下文相关的知识。
- API网关/MCP (Machine Command Plane)建设: 统一和标准化运维操作API,提供安全的调用接口。
- 安全执行沙箱: 确保Agent调用工具执行命令时的安全性。
- 插件化/函数化工具库: 开发可被Agent灵活调用的标准化运维工具函数或插件。
- 流程与规范:
- 工具调用授权流程: 定义哪些Agent或用户可以通过Agent调用哪些工具,以及审批流程。
- 自动化SOP的细化: 将手动SOP改写为适合Agent按步骤执行的、包含工具调用的自动化流程。
- 异常处理机制: 定义工具调用失败或结果异常时的处理逻辑。
- 人员与技能:
- Prompt Engineering: 运维工程师需要掌握高质量提示词工程技能。
- API开发与维护能力: 需要有能力开发和维护供Agent调用的MCP接口。
- RAG内容质量管理: 专人负责RAG知识库内容的准确性和时效性。
- 治理与安全:
- 操作审计: 对Agent的所有工具调用和执行结果进行严格审计。
- 最小权限原则: Agent调用工具时遵循最小权限原则。
- 调用频率与资源限制: 防止Agent滥用工具导致系统过载。
级别 4: 多代理协作模式 (Multi-Agent Collaboration Mode)
- 数据基础:
- 领域知识库细化: 为每个专业Agent(网络、数据库、应用等)构建更深、更细的RAG知识库。
- 共享状态/上下文数据模型: 定义Agent间协作时需要共享的数据结构和状态信息。
- 技术与平台:
- Agent编排框架: 引入或自研Agent编排平台(如LangChain, AutoGen, CrewAI, Semantic Kernel等,或更专业的AIOps平台)。
- Agent间通信协议: 定义Agent之间交换信息、指令、状态的标准协议。
- 成熟的MCP: 提供稳定、全面、安全的运维能力接口层。
- 分布式任务跟踪与监控: 监控多Agent协作任务的整体执行情况和瓶颈。
- 流程与规范:
- 协作式SOP设计: 针对复杂场景设计跨Agent协作的SOP。
- Agent角色与职责定义: 清晰界定每个Agent在协作中的角色、能力和责任。
- 冲突解决机制: 定义当不同Agent的判断或行动产生冲突时的解决策略。
- 人员与技能:
- 系统架构师(AI方向): 负责设计多Agent协作的架构和流程。
- 复杂工作流设计与优化能力。
- 跨领域知识整合能力。
- 治理与安全:
- 协作任务的端到端审计。
- 确保数据在Agent间流转的一致性和安全性。
- 评估多Agent协作可能带来的连锁反应和风险。
级别 5: 自主运行模式 (Autonomous Operation Mode)
- 数据基础:
- 海量、高质量、实时运维数据流: 用于Agent的持续感知和学习。
- 用于模型训练的历史数据集: 包含故障、变更、性能、容量等多种维度的标注或未标注数据。
- 业务影响数据: 将运维事件与业务影响关联,供Agent决策时考虑。
- 技术与平台:
- AIOps平台/强化学习平台: 支持自主学习、预测、决策模型的训练、部署和持续优化。
- 数字孪生/仿真环境: (理想)构建运维环境的仿真平台,供Agent安全地测试和优化其策略。
- 高级决策引擎: 支持复杂的、基于概率和不确定性的决策。
- 可解释AI (XAI) 工具: 帮助理解Agent自主决策的原因。
- 流程与规范:
- “人机协同”的最终决策流程: 对于高风险自主决策,保留人工审核和干预的接口。
- 自主学习的边界与目标设定: 明确Agent可以自主学习和优化的范围及目标函数。
- 应急接管预案: 当自主Agent出现严重异常行为时的手动接管流程。
- 人员与技能:
- 数据科学家/算法工程师: 负责设计、训练和维护Agent的核心AI模型。
- AIOps专家: 深度理解自主运维系统的构建和运营。
- 具备处理“黑盒”系统和不确定性问题的能力。
- 治理与安全:
- AI伦理与责任框架: 明确自主Agent行为的伦理边界和责任归属。
- 严格的风险评估与控制机制: 防止自主Agent做出灾难性决策。
- 持续的性能与行为监控,确保其与设计目标一致。
- 透明度与可解释性要求: 尽量让Agent的决策过程可被理解和追溯。