Pular para o conteúdo principal
O Cost Tracking do ChatCLI monitora o consumo de tokens e estima custos em tempo real durante suas sessoes. Você pode acompanhar quanto cada conversa está custando e tomar decisoes informadas sobre uso de modelos e compactacao de historico.

Comando /cost

O comando /cost exibe um resumo completo do consumo de tokens e custos estimados da sessao atual:
/cost
Session Cost Summary
====================

Tokens Used:
  Input:    45.2K tokens
  Output:   12.8K tokens
  Cache:    38.1K tokens (cached)
  Total:    58.0K tokens

Estimated Cost:
  Input:    $0.1356
  Output:   $0.1920
  Cache:    -$0.0914 (savings)
  ─────────────────────
  Total:    $0.2362

Model: claude-sonnet-4-6 (Anthropic)
Requests: 14
Duration: 23m 15s
Os custos são estimativas baseadas nos precos publicados dos provedores. O custo real pode variar dependendo de descontos, tiers de uso e cache de prompt aplicado pelo provedor.

Token Tracking por Modo

O ChatCLI rastreia tokens em todos os modos de interacao:
No modo chat, o tracking conta:
  • Tokens do system prompt (bootstrap + memoria + contextos)
  • Tokens de cada mensagem do usuario
  • Tokens de cada resposta do assistente
  • Economia de cache (quando aplicavel)
[chat] claude-sonnet-4-6> /cost
Chat mode: 12 messages, 23.4K tokens, ~$0.08

Tabela de Precos

O ChatCLI conhece os precos dos modelos mais comuns para calcular estimativas:

Anthropic

ModeloInput (por 1M tokens)Output (por 1M tokens)Cache Read
claude-sonnet-4-6$3.00$15.00$0.30
claude-opus-4$15.00$75.00$1.50
claude-haiku-3.5$0.80$4.00$0.08

OpenAI

ModeloInput (por 1M tokens)Output (por 1M tokens)Cache Read
gpt-4o$2.50$10.00$1.25
gpt-4o-mini$0.15$0.60$0.075
o3-mini$1.10$4.40$0.55

Google

ModeloInput (por 1M tokens)Output (por 1M tokens)
gemini-2.0-flash$0.10$0.40
gemini-2.5-pro$1.25$10.00

ZAI (Zhipu AI)

ModeloInput (por 1M tokens)Output (por 1M tokens)
glm-5$1.00$4.00
glm-4.5$1.00$4.00
glm-4.5-flash$1.00$4.00

MiniMax

ModeloInput (por 1M tokens)Output (por 1M tokens)
MiniMax-M2.7$0.30$1.20
MiniMax-M2.5$0.30$1.20
MiniMax-Text-01$0.30$1.20
Os precos são atualizados periodicamente nas releases do ChatCLI. Para modelos não listados ou provedores custom (via OpenAI-compatible), o custo aparece como “N/A”.

Exibicao Visual

O ChatCLI usa indicadores visuais para facilitar o acompanhamento:

Formato de Tokens

Tokens são exibidos com sufixos K/M para facilitar a leitura:
ValorExibicao
1,2341.2K
45,67845.7K
1,234,5671.2M

Progress Bar de Contexto

Quando o contexto se aproxima do limite do modelo, uma barra de progresso indica a utilizacao:
Context: ████████░░░░░░░░ 52% (104K / 200K tokens)
Quando o uso de contexto ultrapassa 80%, o ChatCLI sugere automaticamente executar /compact para liberar espaco e reduzir custos.

Economia com Cache

O ChatCLI otimiza custos usando cache de prompt quando o provedor suporta:
Cache Savings:
  System prompt cached: 38.1K tokens
  Savings this session: $0.09 (38% reduction)
  Cache hit rate: 92%
A economia de cache e calculada com base na diferenca entre o preco de input normal e o preco de cache read. Veja Bootstrap e Memoria para detalhes sobre a otimizacao de contexto.

Próximos Passos

Controle de Conversa

Use /compact para reduzir tokens e custos.

Modo One-Shot

Monitore custos em pipelines automatizados.