Pular para o conteúdo principal
O comando /ratelimit (alias /limits) mostra o estado atual dos limites de taxa do seu provider de LLM, sem fazer nenhuma chamada extra: o ChatCLI lê os headers x-ratelimit-* que o provider já devolve em cada resposta e mantém um snapshot por provider.
A captura é passiva e central: um observer no caminho de autenticação intercepta as respostas HTTP de todos os provedores que enviam a família de headers x-ratelimit-* (OpenAI, OpenRouter, endpoints Anthropic-compatíveis, etc.). Nenhuma variável de ambiente é necessária.

Uso

> /ratelimit
  Rate Limits (from provider headers)
  ─────────────────────────────────────────
  OPENAI
    requests  4987 / 5000   (0% usado, reseta em 12s)
    tokens    789012 / 800000   (1% usado, reseta em 48s)
Antes da primeira requisição não há dados:
> /ratelimit
  Rate Limits (from provider headers)
  ─────────────────────────────────────────
  Nenhum dado de rate-limit capturado ainda. Faça uma requisição primeiro.

O que é mostrado

Para cada provider que reportou limites, o ChatCLI mostra até dois buckets:
BucketCampos
requestsrestantes / limite, % usado, reseta em N s
tokensrestantes / limite, % usado, reseta em N s
O “reseta em” é ajustado pelo tempo decorrido desde a captura, então reflete o tempo restante real no momento em que você roda o comando.
Útil em pipelines e sessões longas para antecipar throttling: se requests ou tokens estiver perto de 0% restante, espere o reset (ou troque de provider com /switch) antes de disparar um /agent pesado.

Veja também