产品概述
Doctor Droid是一款智能助手,旨在加速平台和基础设施团队的事件分类和自动化根因分析。它与监控、告警和部署工具深度集成,分析告警、日志、指标和近期变更,动态生成调查计划和可操作的洞察。通过自动化常规诊断和减少告警噪音,Doctor Droid使团队能够更快响应并专注于关键决策,在不干扰现有工作流程的情况下提高运营可靠性。
主要功能
| 自主事件调查 | 自动分析告警和系统数据,根据您的环境、操作手册和过往事件生成逐步排障计划。 |
| 深度集成 | 连接流行工具如Datadog、Grafana、ArgoCD、Kubernetes、New Relic和GitHub,收集全面的可观测性和部署数据。 |
| 通过Playbooks实现操作手册自动化 | 支持创建和执行自动化工作流,无需人工干预即可执行常规IT任务和事件响应。 |
| 告警噪音降低 | 使用动态阈值和模式分析过滤误报并分组相关告警,提高告警质量并减轻疲劳。 |
| 持续文档和根因分析生成 | 自动更新事件文档并生成根因分析报告,保持知识的最新状态并简化事后回顾。 |
| 灵活部署和安全性 | 支持自托管和云部署,并具有强大的安全措施,包括默认只读模式和受控的状态变更执行。 |
使用场景
- 事件响应自动化:自动化告警的调查和初步排障,减少确认平均时间(MTTA)和解决平均时间(MTTR)。
- 告警管理和噪音降低:通过过滤噪音和优先处理关键告警来提高告警信号质量,帮助团队专注于真正的问题。
- 操作手册执行和任务自动化:自动化常规操作任务,如重启服务、清理日志或查询指标,减少人工工作量。
- 持续事件文档:自动保持事件报告和根因分析的最新状态,有助于知识共享和未来预防。
- 云基础设施监控:监控Kubernetes集群、部署和云服务,集成诊断功能以更快地识别根本原因。
