Cenário
Aplicação em Produção
Aplicação “myapp” rodando em produção no Kubernetes
Diagnóstico Rápido
Equipe precisa diagnosticar problemas rapidamente
Análise com IA
Usar IA para analisar logs, eventos e métricas
Contexto Automático
Contexto K8s automático em todas as perguntas
Opção 1: Monitoramento Local
Use esta opção quando você tem acesso direto ao cluster viakubectl.
Opção 2: Servidor com Watcher (Equipe)
Use esta opção para que toda a equipe tenha acesso ao monitoramento via servidor centralizado.Fluxo de Trabalho: Incidente em Produção
Ajuste Fino dos Parametros
Intervalo de Coleta
| Cenário | Intervalo Recomendado |
|---|---|
| Produção estável | 30s (padrão) |
| Investigação ativa | 10s |
| Desenvolvimento | 60s |
| CI/CD monitoring | 15s |
Janela de Observação
| Cenário | Janela Recomendada |
|---|---|
| Debugging rápido | 30m |
| Análise normal | 2h (padrão) |
| Post-mortem | 6h |
| Analise histórica | 24h |
Linhas de Log
| Cenário | Linhas Recomendadas |
|---|---|
| Apps verbosas | 50 |
| Normal | 100 (padrão) |
| Debugging profundo | 500 |
One-Shot para Scripts e Alertas
Integre o ChatCLI com seu sistema de alertas:Dicas Avançadas
Combinar com Contextos Persistentes
Combinar com Contextos Persistentes
Salve documentação do projeto como contexto e anexe ao usar com o watcher:
Múltiplos Deployments
Múltiplos Deployments
Use o modo multi-target para monitorar tudo em uma unica instancia:A IA recebe contexto detalhado dos targets com problemas e resumos compactos dos saudáveis, respeitando o budget de
maxContextChars.Métricas Prometheus
Métricas Prometheus
Quando
metricsPort está configurado, o watcher scrapa automaticamente o endpoint /metrics dos pods e inclui as métricas na analise. Use metricsFilter com glob patterns para selecionar apenas métricas relevantes:Opção 3: AIOps Autônomo (Operator)
Use esta opção para remediação automática de problemas sem intervenção humana.Fluxo Autônomo em Ação
Quando um pod comeca a crashar:Tudo acontece automaticamente sem intervenção humana. Runbooks auto-gerados são reutilizados para futuras ocorrências do mesmo tipo. No modo agêntico, a IA atua como agente autônomo com “skills” K8s, e ao resolver o problema gera um PostMortem CR com timeline completa e um Runbook reutilizável para futuras ocorrências.
(Opcional) Adicionar Runbooks
Para cenários específicos onde você quer controlar exatamente o que fazer:
Prioridade de remediação: Runbook manual > Runbook auto-gerado > Remediação agêntica > Escalação. Quando não há Runbook manual, a IA gera automaticamente um Runbook CR reutilizável. Se nem Runbook nem ações de IA estão disponíveis, o operator entra em modo agêntico: a IA atua como agente autônomo num loop observe-decide-act, e ao resolver gera um PostMortem CR e um Runbook reutilizável.
Checklist de Implantacao
- Monitoramento (Watch + Servidor)
- AIOps Autônomo (Operator)
- Verificar acesso ao cluster (
kubectl get pods) - Verificar permissoes RBAC para pods, logs, eventos
- Escolher modo: local (
chatcli watch) ou servidor (chatcli server) - Definir targets: single (
--deployment) ou multi (--config targets.yaml) - (Opcional) Configurar
metricsPortpara Prometheus scraping - Configurar intervalo e janela adequados ao cenário
- Ajustar
maxContextCharsse necessario (padrão: 32000) - Testar com pergunta simples: “O deployment está saudável?”
- (Opcional) Integrar com alertas para análise automática
- (Opcional) Distribuir acesso para a equipe via token