Como Funciona
A cadeia de fallback e uma lista ordenada de provedores. Cada request percorre a lista ate obter sucesso ou esgotar todas as opcoes:Configuracao
- Variaveis de Ambiente
- Flags do Servidor
- Helm Chart
Classificacao de Erros
O sistema classifica automaticamente cada falha para decidir a estrategia:| Classe | Comportamento | Exemplos |
|---|---|---|
rate_limit | Aguarda backoff, depois retenta | HTTP 429, “too many requests” |
timeout | Retenta ate maxRetries | Deadline exceeded, connection timeout |
server_error | Retenta ate maxRetries | HTTP 500, 502, 503 |
auth_error | Nao retenta — avanca na cadeia | HTTP 401, 403, “invalid api key” |
model_not_found | Nao retenta — avanca na cadeia | HTTP 404, “model not found” |
context_too_long | Nao retenta — avanca na cadeia | ”context length exceeded” |
Cooldown Exponencial
Apos falhas consecutivas, o provedor entra em cooldown com backoff exponencial:| Falhas Consecutivas | Cooldown |
|---|---|
| 1 | 30s |
| 2 | 60s |
| 3 | 120s |
| 4 | 240s |
| 5+ | 300s (max) |
Erros de autenticacao recebem cooldown maximo imediato (5m). Um request bem-sucedido limpa todo o cooldown do provedor. Use
ResetCooldowns() para limpar manualmente (ex: apos atualizar credenciais).Monitoramento de Saude
A cadeia rastreia o estado de cada provedor em tempo real:| Campo | Descricao |
|---|---|
Available | Se o provedor esta disponivel para requests |
ConsecutiveFails | Numero de falhas consecutivas |
LastErrorClass | Tipo da ultima falha |
CooldownUntil | Quando o cooldown expira |
LastErrorAt | Timestamp da ultima falha |
Tool Use com Fallback
A cadeia de fallback tambem suportaSendPromptWithTools para provedores que implementam a interface ToolAwareClient. Provedores sem suporte a tool use nativo sao automaticamente ignorados na cadeia de tool calls.
Boas Praticas
Ordene por custo-beneficio
Coloque o provedor mais barato/rapido primeiro na cadeia.
Diversifique provedores
Misture provedores de diferentes empresas para resiliencia real.
Configure modelos por provedor
Use modelos equivalentes em capacidade para manter qualidade.
Monitore a saude
Verifique regularmente se algum provedor esta em cooldown persistente.