O Modelo Mental Antigo Não Funciona Mais
Por anos, a narrativa era simples: treinar é caro, avaliar é barato. Um modelo de fronteira custa de US$ 50 a 100 milhões para treinar, mas rodar alguns benchmarks? Um custo irrelevante. Esse modelo mental está perigosamente desatualizado.
Em 2026, o custo de uma única avaliação abrangente pode exceder o custo de treinar o modelo que está sendo testado. O Holistic Agent Leaderboard (HAL) gastou aproximadamente US$ 40.000 para executar 21.730 execuções de agentes em 9 modelos e 9 benchmarks. Uma única execução do GAIA em um modelo de fronteira pode custar US$ 2.829 antes de qualquer cache. E o PaperBench, um benchmark que exige replicar 20 artigos do ICML do zero, custa US$ 9.500 por avaliação.
Isso não é uma anomalia — é uma mudança estrutural. A avaliação se tornou seu próprio orçamento de computação, com seus próprios métodos estatísticos, modos de falha e consequências econômicas. Se você não pode pagar pela avaliação, você não pode escrever o leaderboard.
Por Que os Custos de Avaliação de Agentes Explodiram
Benchmarks estáticos como MMLU ou HELM eram relativamente baratos porque exigiam apenas uma passagem direta por item. Agentes mudam tudo. Cada tarefa de benchmark agora é uma sessão de múltiplas etapas envolvendo chamadas de ferramentas, execução de código, navegação na web e raciocínio iterativo. O custo por item não é mais um token — é uma sessão inteira.
Considere a variação: no Holistic Agent Leaderboard, o custo de uma única execução de benchmark varia em quatro ordens de magnitude entre as tarefas, e em três ordens dentro de alguns benchmarks individuais. Uma tarefa TAU-bench airline pode custar US$ 0,31 ou US$ 180 dependendo da configuração do agente. Isso não é um bug — é uma característica do paradigma agentivo.
O Multiplicador Oculto: Confiabilidade
A maioria dos custos acima compra apenas medições de execução única. Mas a precisão de execução única é uma métrica ruidosa e não confiável. O campo está lentamente acordando para esse fato.
O τ-bench de Yao et al. mostrou que o desempenho pode cair de 60% em uma única execução para 25% sob uma verificação de consistência de 8 execuções. Kapoor et al. em "AI Agents That Matter" descobriram que agentes de linha de base simples dominam agentes SOTA complexos no HumanEval com 50× menos custo.
Para obter resultados estatisticamente confiáveis, você precisa de múltiplas sementes por célula. Uma avaliação estatisticamente crível no estilo HAL com k = 8 repetições por célula leva o agregado de US$ 40K para aproximadamente US$ 320K. O mesmo multiplicador no custo de US$ 9.500 por execução do PaperBench empurra a avaliação de um único agente para mais de US$ 75K. A confiabilidade atua como um multiplicador em todas as categorias de custo.
Benchmarks que São Treinamento
Alguns benchmarks escapam completamente da estrutura de custo de API porque seu protocolo de avaliação treina modelos do zero. O The Well, um benchmark de ML científico, requer 3.840 horas de H100 para uma varredura completa de quatro linhas de base — aproximadamente US$ 9.600 nas taxas atuais de nuvem. Uma única nova arquitetura ainda custa cerca de 960 horas de H100 (US$ 2.400).
O PaperBench exige replicar 20 artigos Spotlight ou Oral do ICML 2024 do zero, avaliados contra árvores de rubrica com 8.316 critérios de nó folha. Cada execução usa uma GPU A10 por 12 horas. A conta por artigo é brutal:
- US$ 400 em API por execução do o1 IterativeAgent, vezes 20 artigos = US$ 8.000 por avaliação
- US$ 66 por artigo para avaliação com o juiz o3-mini = US$ 1.320 para o benchmark completo
- Total: US$ 9.500 por avaliação de agente
A OpenAI criou o PaperBench Code-Dev — uma variante que elimina a execução — porque muitos grupos não podem pagar pelo benchmark completo. O fato de um laboratório de fronteira precisar criar uma versão mais barata de seu próprio benchmark para a comunidade usá-lo diz tudo sobre o estado atual da economia de avaliação.
O Campo Não Pode Continuar Pagando no Varejo
Uma razão pela qual esses números permanecem altos é que todo mundo paga pela mesma avaliação repetidamente. Um laboratório de fronteira paga por uma varredura HAL. Um grupo acadêmico paga novamente por uma reprodução parcial. Uma organização de auditoria paga uma terceira vez. Um jornalista paga uma quarta para verificar o leaderboard. Quase nenhum dos resultados subjacentes em nível de instância acaba em um lugar onde a próxima equipe possa construir em cima deles.
A documentação padronizada é a alavanca mais barata disponível. Se uma execução do PaperBench de US$ 9.500 exportar seu rastro de avaliação completo em um esquema compartilhado, o próximo grupo estudando os mesmos artigos pode gastar seu orçamento em novas perturbações em vez de repetir a linha de base. Mesmo uma taxa de reutilização de 2× nos benchmarks de alto custo colocaria mais dinheiro de volta no ecossistema do que todas as técnicas de compressão juntas.
Limitações e Cuidados
- Técnicas de compressão são parciais. Flash-HELM, tinyBenchmarks e Anchor Points funcionam bem para benchmarks estáticos (redução de 100× a 200×), mas benchmarks de agentes são ruidosos, sensíveis ao scaffold e apenas parcialmente compressíveis. A filtragem de dificuldade média atinge uma redução de 2× a 3,5× — útil, mas longe dos ganhos da era estática.
- Benchmarks com treinamento no loop não têm método de compressão geral. A pré-computação tabular e limites de orçamento apertados podem reduzir o custo apenas estreitando o que o benchmark mede. A assimetria fundamental — computação de avaliação excedendo a computação de treinamento em duas ordens de magnitude — é estrutural.
- Os valores de custo são limites inferiores. Muitos avaliadores já estão excluídos por preço. Os valores acima assumem preços ideais e sem repetições. Os custos do mundo real são frequentemente mais altos.
Leitura Recomendada
Se esta análise ressoou com você, aqui estão dois mergulhos profundos relacionados:
- Python 3.14.3 Lançado: Um Mergulho Profundo nos Novos Recursos — Novos recursos de linguagem que podem ajudar você a escrever pipelines de avaliação mais eficientes.
- React Compiler v1.0 Chegou: Um Mergulho Profundo na Memoização Automática — Como a memoização automática muda o perfil de desempenho de aplicações web, um paralelo com os desafios de otimização na avaliação de IA.
Conclusão
A avaliação agora tem seus próprios orçamentos de computação, métodos estatísticos e modos de falha. Seu preço molda quem pode avaliar sistemas poderosos em primeiro lugar. O campo ainda fala como se a capacidade definisse a principal restrição, mas a avaliação aponta para a confiabilidade como a mais apertada. Instituições de governança deveriam querer medir a lacuna entre a precisão de execução única e a consistência pass^k, mas essa lacuna é a mais cara de medir.
A economia mudou. Quem pode pagar pela avaliação escreve o leaderboard.
Esta análise é baseada no post do EvalEval Coalition Blog por Ghosh, Mai, Channing e Choshen (2026).
