Skip to content

什么是 ai-fixer

ai-fixer 是一个运维领域的智能修复 Agent,以飞书群聊为交互界面,通过 LLM 自动诊断和修复生产环境问题。

核心能力

🤖 智能告警处理

自动接收飞书群内的告警消息,通过 LLM 进行:

  • 告警分类(K8s、数据库、中间件、网络等)
  • 根因分析(调用诊断插件收集信息)
  • 修复方案生成(基于诊断结果和历史经验)

✅ 两步人工确认

为了安全,工作流采用两步确认机制:

  1. 诊断确认:LLM 完成诊断后,发送诊断卡片给用户确认
  2. 方案确认:用户确认诊断后,生成修复方案再次确认
  3. 执行修复:用户确认方案后,自动执行修复操作

🔒 安全围栏

  • 命名空间白名单:只允许在指定命名空间执行操作
  • 副本数变更限制:防止意外大规模扩容/缩容
  • 命令黑名单:禁止执行危险命令
  • 每小时配额:限制自动修复次数

📚 历史学习

基于 pgvector 向量存储,自动学习历史 incident:

  • 语义搜索相似问题
  • 参考历史修复方案
  • 持续优化诊断准确性

工作流程

飞书群告警 → 机器人检测 → LLM 分类+诊断 → 📨 诊断确认卡片
                                              ↓ 用户确认
                                      LLM 生成修复方案 → 📨 方案确认卡片
                                              ↓ 用户确认
                                        执行修复 → 发送结果卡片

适用场景

  • Kubernetes 集群运维(Pod 异常、资源问题、部署失败)
  • 数据库故障排查(慢查询、锁等待、连接数过高)
  • 中间件问题处理(Redis、Kafka、MQ 等)
  • 应用性能问题(延迟升高、错误率上升)
  • 自定义告警处理(通过插件扩展)

下一步

基于 MIT 许可发布