Rastreie custos de token e estimativas de preço por sessão em todos os modos, com dados reais de API e orcamento configurável
O Cost Tracking do ChatCLI monitora o consumo de tokens e estima custos em tempo real durante suas sessões, com dados reais de uso da API quando disponíveis. Você pode acompanhar quanto cada conversa esta custando, ver custos por modelo/provedor e configurar limites de orcamento.
Quando o provedor retorna dados reais de uso de tokens (Usage.IsReal = true), os custos sao calculados com precisao. Para provedores que não retornam uso real, o ChatCLI estima tokens a partir do tamanho do texto.
Modelos GPT também mostram usage no envelope do chat, com as mesmas setinhas N↑ M↓ que o fluxo Claude usa desde o lançamento. O ChatCLI envia stream_options: {include_usage: true} em streaming Chat Completions e parseia o evento response.completed na Responses API, então contagens input/output (e cache-hit) aparecem no envelope independente do provider. Cached tokens reportados em prompt_tokens_details.cached_tokens (Chat Completions) / input_tokens_details.cached_tokens (Responses) mapeiam para CacheReadInputTokens, o mesmo campo do prompt caching Anthropic. Reasoning tokens (o-series / GPT-5) ficam em um campo informativo separado ReasoningTokens — já estão contabilizados em CompletionTokens e cobrados como output.
O cost tracker do ChatCLI bilha o preço de cache miss (0.95/Minput)parasemanterconservador.Ocache−hit(0.16/M) é uma economia automática da API — quando o mesmo prefixo é reusado dentro da janela do provider — e não é contabilizado em runtime.
Os precos sao atualizados periodicamente nas releases do ChatCLI. Para modelos não listados ou provedores custom (via OpenAI-compatible), o custo aparece como “N/A”. O OpenRouter disponibiliza precos via API — o ChatCLI usa o ConfigMap de precos para estimar custos dos modelos mais populares.
O ChatCLI rastreia tokens de cache específicos da Anthropic:
Metrica
Descricao
CacheCreationTokens
Tokens usados para criar entradas de cache
CacheReadTokens
Tokens lidos do cache (custo reduzido)
O custo de cache read e tipicamente 10% do custo de input normal, resultando em economia significativa em conversas longas com system prompts grandes.
A economia de cache e calculada com base na diferença entre o preço de input normal e o preço de cache read. Veja Bootstrap e Memória para detalhes sobre a otimização de contexto.
Quando o provedor retorna dados reais (HasRealData = true), o tracking usa contagens exatas de tokens. Isso e suportado por 13+ provedores incluindo Anthropic, OpenAI, ZAI, MiniMax, DeepSeek e OpenRouter.