AI Agent #

Created by: xiaowei Luo Created time: June 18, 2025 7:31 PM Category: Strategy doc Last edited by: xiaowei Luo Last updated time: June 18, 2025 7:31 PM

基础响应模式 (Basic Responder) #

核心特征：基于预设规则或简单模式匹配，执行固定回应或操作。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Deepseek[(deepseek<br>Large language<br>model)]
    Deepseek -->|Response| LLM_response[(LLM<br>response)]

解释：用户输入查询，直接通过提示词（Prompt）发送给大型语言模型（LLM），模型生成简单响应并返回给用户。这是最基础的交互模式，模型仅根据输入生成文本，无额外逻辑处理。

场景示例：问答机器人

用户需求/咨询： 用户在聊天框输入：“预发环境的RocketMQ控制台怎么访问？”
AI Agent行为： Agent匹配到关键词“RocketMQ，控制台”，从预设的FAQ库中找到对应的标准连接指南文档链接，并回复给用户。
说明： Agent不理解用户可能遇到的具体问题，只提供标准答案。无法处理复杂的查询或动态变化的状态。

路由选择模式 (Route Selector) #

核心特征：初步意图识别，将任务或查询路由到合适的处理单元或流程。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Router[(Route<br>Selector)]
    Router -->|Route 1| Model1[(Model 1)]
    Router -->|Route 2| Model2[(Model 2)]
    Router -->|Route 3| Model3[(Model 3)]
    Model1 -->|Response| Response_Aggregator[(Response<br>Aggregator)]
    Model2 -->|Response| Response_Aggregator
    Model3 -->|Response| Response_Aggregator
    Response_Aggregator -->|Final Response| User

解释：用户输入后，路由选择器根据查询内容将任务分配给不同模型（如文本生成、数学计算、代码生成等）。各模型生成响应后，由聚合器整合结果并返回给用户。此模式支持多领域任务处理。

场景示例：多级知识库导航

用户需求/咨询： “我想了解一下如何查看线上MySQL是如何处理敏感数据的”
AI Agent行为： Agent识别“MySQL”，将其路由到知识库中关于“MySQL”相关的知识库，并给出链接或摘要。
说明： Agent能把用户导向更具体的自助信息。

工具调用模式 (Tool Caller) #

核心特征：理解任务需求，调用外部工具/API获取信息或执行操作，并整合结果。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Agent[(AI<br>Agent)]
    Agent -->|Tool Invocation| Tool[(External<br>Tool)]
    Tool -->|Tool Result| Agent
    Agent -->|Response| User

解释：AI代理分析用户需求后，调用外部工具（如搜索引擎、计算器、API等）获取数据或执行操作。工具结果返回后，代理整合信息生成最终响应。此模式增强了AI的实用性，使其能处理需要外部数据的任务。

场景示例：查询特定服务的使用情况

用户需求/咨询： “帮我查一下Redis 的大key。”
AI Agent行为： Agent通过调用tools（如grafana或者redis mcp等）或远程执行命令的工具（redis-cli），获取指定redis服务器的大key或者热点key，并格式化后回复给用户。
说明： Agent能按需提取系统信息。

其他类似场景：自动化故障诊断信息收集，

多代理协作模式 (Multi-Agent Collaboration) #

核心特征：多个专业Agent分工协作、通信，共同完成复杂目标。

graph LR
    User[User] --> Query{Query}
    Query -->|Prompt| Agent1[(Agent 1)]
    Agent1 -->|Request| Agent2[(Agent 2)]
    Agent2 -->|Request| Agent3[(Agent 3)]
    Agent3 -->|Response| Agent2
    Agent2 -->|Response| Agent1
    Agent1 -->|Final Response| User

解释：多个AI代理协同工作，完成复杂任务。例如，Agent1负责任务分解，Agent2执行子任务，Agent3验证结果。代理间通过中间结果交互，最终由Agent1整合所有信息返回用户。此模式适合需要多步骤推理的任务。

场景示例：复杂故障报告的智能诊断与用户沟通

用户需求/咨询： “系统从早上开始就非常慢，而且经常报错，请帮忙看一下。”
AI Agent行为：
- 用户交互Agent记录问题，并触发诊断协调Agent。
- 诊断协调Agent调动应用Agent（查日志、APM）、网络Agent（查延迟、丢包）、数据库Agent（查慢查询、连接数）等进行联合诊断。
- 在诊断过程中，用户交互Agent可以定期向用户提供进展更新：“我们正在检查应用服务器日志，初步发现X问题，预计还需要Y分钟定位…”或“数据库团队反馈目前连接正常，我们正在排查应用层…”。
- 找到原因后，用户交互Agent向用户解释故障原因、影响范围和预计恢复时间。
说明： 不仅是后台协作，还包括了在复杂问题处理过程中与用户的智能沟通和状态反馈。

其他类似场景：告警抑制，变更评估

自主运行模式 (Autonomous Runner) #

核心特征：自主感知环境、规划、决策、行动、从经验中学习并适应变化，实现长期自主优化。

graph LR
    User[User] --> Query{Query}
    Query -->|Initial Prompt| Autonomous_System[(Autonomous<br>AI System)]
    Autonomous_System -->|Sub-task 1| Sub_System1[(Sub-system 1)]
    Autonomous_System -->|Sub-task 2| Sub_System2[(Sub-system 2)]
    Autonomous_System -->|Sub-task 3| Sub_System3[(Sub-system 3)]
    Sub_System1 -->|Result| Autonomous_System
    Sub_System2 -->|Result| Autonomous_System
    Sub_System3 -->|Result| Autonomous_System
    Autonomous_System -->|Final Response| User

解释：完全自主的AI系统，能够独立规划、执行并管理复杂任务。用户输入后，系统自行分解任务，调用内部子系统（如分析、决策、执行模块）协同工作。每个子系统完成后返回结果，主系统整合所有信息生成最终响应。此模式接近人类自主决策水平。

其他类似场景： CDN调度，回源策略调整

一些要求(From Gemini)
从数据基础、技术与平台、流程与规范、人员与技能、治理与安全这五个更宏观的维度，来阐述在各个AI Agent阶段您需要做的准备工作：
通用基础准备 (贯穿所有阶段，但重要性随阶段递增):
- 明确的业务目标与场景选择： 清晰定义希望AI Agent解决哪些运维痛点，带来什么价值。从简单、高频、规则明确的场景入手。
- 高层支持与跨部门协作： AI Agent的引入往往需要多部门（运维、开发、安全、业务）的配合，高层支持至关重要。
- 迭代与反馈机制： 建立快速迭代和收集用户/运维反馈的机制，持续优化Agent的表现。
- 可观测性理念： 从一开始就考虑如何监控AI Agent自身的运行状态、决策过程和效果。
各阶段的具体准备工作 (扩展维度)：
级别 1: 基础回应模式 (Basic Response Mode)
1. 数据基础：
  - 结构化FAQ库： 收集、整理并结构化常见的运维问题和标准答案。
  - 简单规则集： 定义明确的触发条件和对应的固定响应/操作（如日志关键词->告警通知模板）。
  - 基础CMDB信息： 至少有服务器列表、应用列表等基础资产信息。
2. 技术与平台：
  - 简单脚本库： 存放少量、固定的自动化脚本（如查询服务状态）。
  - 通知集成： 配置与邮件、即时通讯工具（Slack、企业微信等）的集成。
  - (可选) 简单RAG雏形： 搭建一个能对FAQ库进行关键词检索的系统。
3. 流程与规范：
  - FAQ更新流程： 建立FAQ的新增和更新维护流程。
  - 告警通知规范： 定义告警信息的标准化格式和接收人。
4. 人员与技能：
  - 内容维护人员： 负责FAQ和规则集的日常维护。
  - 基础脚本编写能力： 运维人员具备编写简单自动化脚本的能力。
5. 治理与安全：
  - *信息访问范围定义：**明确Agent可以访问和提供的基础信息范围。
级别 2: 路由选择模式 (Routing Selection Mode)
1. 数据基础：
  - 带意图标注的语料： 收集用户历史提问，并标注其意图，用于训练或配置意图识别模型。
  - 运维知识图谱 (初级)： 构建描述系统间依赖、故障模式与处理团队/SOP关联的简单知识图谱。
  - CMDB数据质量提升： 确保CMDB中服务依赖、负责人、影响范围等信息的准确性。
2. 技术与平台：
  - 意图识别引擎： 引入或配置简单的意图识别模型/服务（可以是基于规则，也可以是简单NLP模型）。
  - 决策树/路由逻辑引擎： 实现基于意图或告警特征的路由逻辑。
  - ITSM/工单系统集成： 实现Agent与工单系统的API对接。
  - RAG能力初步应用： 利用RAG辅助意图理解和知识库导航。
3. 流程与规范：
  - 告警分级与路由策略： 定义不同告警级别、类型的分发规则和SLA。
  - 用户请求分类标准： 建立用户自助服务请求的分类标准。
4. 人员与技能：
  - 数据标注能力： 培养运维人员对语料进行意图标注的能力。
  - 流程设计能力： 设计和优化请求路由流程。
5. 治理与安全：
  - 路由准确性监控： 监控Agent路由的准确率和用户满意度。
  - 数据隐私保护： 在路由过程中注意用户数据的隐私保护。
级别 3: 工具调用模式 (Tool Invocation Mode)
1. 数据基础：
  - 全面的运维文档向量化 (RAG核心)： 将SOP、API文档、故障排查手册、历史解决方案等全面数字化并构建高质量向量知识库。
  - 工具/API元数据： 清晰描述每个可调用工具/API的功能、输入参数、输出格式、前置条件、潜在风险等。
2. 技术与平台：
  - LLM/NLP平台： 引入具备较强自然语言理解和生成能力的模型，用于理解用户需求、选择工具、生成调用参数、理解工具输出。
  - RAG系统： 深度集成RAG，为LLM提供动态的、上下文相关的知识。
  - API网关/MCP (Machine Command Plane)建设： 统一和标准化运维操作API，提供安全的调用接口。
  - 安全执行沙箱： 确保Agent调用工具执行命令时的安全性。
  - 插件化/函数化工具库： 开发可被Agent灵活调用的标准化运维工具函数或插件。
3. 流程与规范：
  - 工具调用授权流程： 定义哪些Agent或用户可以通过Agent调用哪些工具，以及审批流程。
  - 自动化SOP的细化： 将手动SOP改写为适合Agent按步骤执行的、包含工具调用的自动化流程。
  - 异常处理机制： 定义工具调用失败或结果异常时的处理逻辑。
4. 人员与技能：
  - Prompt Engineering： 运维工程师需要掌握高质量提示词工程技能。
  - API开发与维护能力： 需要有能力开发和维护供Agent调用的MCP接口。
  - RAG内容质量管理： 专人负责RAG知识库内容的准确性和时效性。
5. 治理与安全：
  - 操作审计： 对Agent的所有工具调用和执行结果进行严格审计。
  - 最小权限原则： Agent调用工具时遵循最小权限原则。
  - 调用频率与资源限制： 防止Agent滥用工具导致系统过载。
级别 4: 多代理协作模式 (Multi-Agent Collaboration Mode)
1. 数据基础：
  - 领域知识库细化： 为每个专业Agent（网络、数据库、应用等）构建更深、更细的RAG知识库。
  - 共享状态/上下文数据模型： 定义Agent间协作时需要共享的数据结构和状态信息。
2. 技术与平台：
  - Agent编排框架： 引入或自研Agent编排平台（如LangChain, AutoGen, CrewAI, Semantic Kernel等，或更专业的AIOps平台）。
  - Agent间通信协议： 定义Agent之间交换信息、指令、状态的标准协议。
  - 成熟的MCP： 提供稳定、全面、安全的运维能力接口层。
  - 分布式任务跟踪与监控： 监控多Agent协作任务的整体执行情况和瓶颈。
3. 流程与规范：
  - 协作式SOP设计： 针对复杂场景设计跨Agent协作的SOP。
  - Agent角色与职责定义： 清晰界定每个Agent在协作中的角色、能力和责任。
  - 冲突解决机制： 定义当不同Agent的判断或行动产生冲突时的解决策略。
4. 人员与技能：
  - 系统架构师(AI方向)： 负责设计多Agent协作的架构和流程。
  - 复杂工作流设计与优化能力。
  - 跨领域知识整合能力。
5. 治理与安全：
  - 协作任务的端到端审计。
  - 确保数据在Agent间流转的一致性和安全性。
  - 评估多Agent协作可能带来的连锁反应和风险。
级别 5: 自主运行模式 (Autonomous Operation Mode)
1. 数据基础：
  - 海量、高质量、实时运维数据流： 用于Agent的持续感知和学习。
  - 用于模型训练的历史数据集： 包含故障、变更、性能、容量等多种维度的标注或未标注数据。
  - 业务影响数据： 将运维事件与业务影响关联，供Agent决策时考虑。
2. 技术与平台：
  - AIOps平台/强化学习平台： 支持自主学习、预测、决策模型的训练、部署和持续优化。
  - 数字孪生/仿真环境： (理想)构建运维环境的仿真平台，供Agent安全地测试和优化其策略。
  - 高级决策引擎： 支持复杂的、基于概率和不确定性的决策。
  - 可解释AI (XAI) 工具： 帮助理解Agent自主决策的原因。
3. 流程与规范：
  - “人机协同”的最终决策流程： 对于高风险自主决策，保留人工审核和干预的接口。
  - 自主学习的边界与目标设定： 明确Agent可以自主学习和优化的范围及目标函数。
  - 应急接管预案： 当自主Agent出现严重异常行为时的手动接管流程。
4. 人员与技能：
  - 数据科学家/算法工程师： 负责设计、训练和维护Agent的核心AI模型。
  - AIOps专家： 深度理解自主运维系统的构建和运营。
  - 具备处理“黑盒”系统和不确定性问题的能力。
5. 治理与安全：
  - AI伦理与责任框架： 明确自主Agent行为的伦理边界和责任归属。
  - 严格的风险评估与控制机制： 防止自主Agent做出灾难性决策。
  - 持续的性能与行为监控，确保其与设计目标一致。
  - 透明度与可解释性要求： 尽量让Agent的决策过程可被理解和追溯。