ai-fixer

🤖

智能告警处理

接收飞书群告警，LLM 自动分类、诊断、生成修复方案

🔍

全栈 SRE 能力

支持 K8s、数据库、中间件、网络、云服务等全栈排查

✅

两步人工确认

诊断结果和修复方案均需用户通过飞书卡片确认后才继续执行

🛠️

Shell 执行

LLM 可调用 shell 命令进行实时问题排查

🔒

安全围栏

自动修复需审批，支持命名空间白名单、配额限制

📊

环境上下文

用户可配置生产环境信息，LLM 据此做更准确判断

💬

飞书集成

WebSocket 长连接，告警表情回应，诊断结果卡片

📝

完整记录

每轮 LLM 对话、工具调用、执行结果全部持久化

🌐

管理后台

React 前端，配置管理、Incident 查看、插件管理

工作原理

ai-fixer 的核心是一个基于 LangGraph 的状态机工作流，将告警处理抽象为严谨的步骤，确保每一步诊断和修复都在可控和安全的前提下进行：

mermaid

graph TD
    Alert[飞书群告警] --> Bot[机器人检测]
    Bot --> Triage[LLM 分类与初步分析]
    Triage --> Diagnose[诊断问题并获取上下文]
    
    Diagnose --> Card1[发送诊断确认卡片]
    Card1 -->|用户点击确认| Propose[生成修复方案]
    
    Propose --> Evaluate[策略与围栏评估]
    Evaluate --> Card2[发送方案确认卡片]
    
    Card2 -->|用户点击确认| Execute[执行修复步骤]
    Execute --> Verify[验证修复结果]
    Verify --> Notify[发送最终结果卡片]
    
    classDef default fill:#f9f9f9,stroke:#333,stroke-width:1px;
    classDef highlight fill:#e1f5fe,stroke:#0288d1,stroke-width:2px;
    classDef warning fill:#fff3e0,stroke:#f57c00,stroke-width:2px;
    
    class Card1,Card2 warning;
    class Triage,Diagnose,Propose highlight;

技术栈

后端：Python 3.11, FastAPI, SQLAlchemy 2.0, LangGraph

前端：React 19, Vite 8, TypeScript, Tailwind CSS 4, shadcn/ui

数据库：PostgreSQL 16（pgvector）, Redis 7

LLM：Anthropic Claude / OpenAI GPT（可切换）

飞书：lark-oapi WebSocket 长连接

可观测性：structlog, Prometheus, OpenTelemetry

ai-fixer智能运维修复 Agent

智能告警处理

全栈 SRE 能力

两步人工确认

Shell 执行

安全围栏

环境上下文

飞书集成

完整记录

管理后台

快速体验

工作原理

技术栈

ai-fixer智能运维修复 Agent

智能告警处理

全栈 SRE 能力

两步人工确认

Shell 执行

安全围栏

环境上下文

飞书集成

完整记录

管理后台

快速体验 ​

工作原理 ​

技术栈 ​

快速体验

工作原理

技术栈