什么是 ai-fixer
ai-fixer 是一个运维领域的智能修复 Agent,以飞书群聊为交互界面,通过 LLM 自动诊断和修复生产环境问题。
核心能力
🤖 智能告警处理
自动接收飞书群内的告警消息,通过 LLM 进行:
- 告警分类(K8s、数据库、中间件、网络等)
- 根因分析(调用诊断插件收集信息)
- 修复方案生成(基于诊断结果和历史经验)
✅ 两步人工确认
为了安全,工作流采用两步确认机制:
- 诊断确认:LLM 完成诊断后,发送诊断卡片给用户确认
- 方案确认:用户确认诊断后,生成修复方案再次确认
- 执行修复:用户确认方案后,自动执行修复操作
🔒 安全围栏
- 命名空间白名单:只允许在指定命名空间执行操作
- 副本数变更限制:防止意外大规模扩容/缩容
- 命令黑名单:禁止执行危险命令
- 每小时配额:限制自动修复次数
📚 历史学习
基于 pgvector 向量存储,自动学习历史 incident:
- 语义搜索相似问题
- 参考历史修复方案
- 持续优化诊断准确性
工作流程
飞书群告警 → 机器人检测 → LLM 分类+诊断 → 📨 诊断确认卡片
↓ 用户确认
LLM 生成修复方案 → 📨 方案确认卡片
↓ 用户确认
执行修复 → 发送结果卡片适用场景
- Kubernetes 集群运维(Pod 异常、资源问题、部署失败)
- 数据库故障排查(慢查询、锁等待、连接数过高)
- 中间件问题处理(Redis、Kafka、MQ 等)
- 应用性能问题(延迟升高、错误率上升)
- 自定义告警处理(通过插件扩展)