El Viejo Modelo Mental Ya No Sirve

Durante años, la narrativa fue simple: entrenar es caro, evaluar es barato. Un modelo de frontera cuesta entre $50 y $100 millones de dólares entrenarlo, pero correr unos benchmarks? Un costo irrelevante. Ese modelo mental está peligrosamente desactualizado.

En 2026, el costo de una sola evaluación integral puede exceder el costo de entrenar el modelo que se está probando. El Holistic Agent Leaderboard (HAL) gastó aproximadamente $40,000 para ejecutar 21,730 rollouts de agentes en 9 modelos y 9 benchmarks. Una sola ejecución de GAIA en un modelo de frontera puede costar $2,829 antes de cualquier caché. Y PaperBench, un benchmark que requiere replicar 20 artículos de ICML desde cero, cuesta $9,500 por evaluación.

Esto no es una anomalía—es un cambio estructural. La evaluación se ha convertido en su propio presupuesto de cómputo, con sus propios métodos estadísticos, modos de fallo y consecuencias económicas. Si no puedes pagar la evaluación, no puedes escribir el leaderboard.

Por Qué los Costos de Evaluación de Agentes Explotaron

Los benchmarks estáticos como MMLU o HELM eran relativamente baratos porque requerían solo un pase hacia adelante por ítem. Los agentes lo cambian todo. Cada tarea de benchmark ahora es una sesión de múltiples turnos que involucra llamadas a herramientas, ejecución de código, navegación web y razonamiento iterativo. El costo por ítem ya no es un token—es una sesión completa.

Considera la dispersión: en el Holistic Agent Leaderboard, el costo de una sola ejecución de benchmark varía en cuatro órdenes de magnitud entre tareas, y en tres órdenes dentro de algunos benchmarks individuales. Una tarea de TAU-bench airline puede costar $0.31 o $180 dependiendo de la configuración del agente. Eso no es un bug—es una característica del paradigma agentivo.

El Multiplicador Oculto: Confiabilidad

La mayoría de los costos anteriores compran solo mediciones de una sola ejecución. Pero la precisión de una sola ejecución es una métrica ruidosa y poco confiable. El campo está despertando lentamente a este hecho.

El τ-bench de Yao et al. mostró que el rendimiento puede caer de 60% en una sola ejecución a 25% bajo una verificación de consistencia de 8 ejecuciones. Kapoor et al. en "AI Agents That Matter" encontraron que agentes de línea base simples dominan a agentes SOTA complejos en HumanEval con 50× menos costo.

Para obtener resultados estadísticamente confiables, necesitas múltiples semillas por celda. Una evaluación estadísticamente creíble al estilo HAL con k = 8 repeticiones por celda lleva el agregado de $40K a aproximadamente $320K. El mismo multiplicador en el costo de $9,500 por ejecución de PaperBench empuja la evaluación de un solo agente a más de $75K. La confiabilidad actúa como un multiplicador en cada categoría de costo.

Benchmarks que Son Entrenamiento

Algunos benchmarks escapan completamente del marco de costo de API porque su protocolo de evaluación entrena modelos desde cero. The Well, un benchmark de ML científico, requiere 3,840 horas de H100 para un barrido completo de cuatro líneas base—aproximadamente $9,600 a las tarifas actuales de nube. Una sola arquitectura nueva todavía cuesta alrededor de 960 horas de H100 ($2,400).

PaperBench requiere replicar 20 artículos Spotlight u Oral de ICML 2024 desde cero, evaluados contra árboles de rúbrica con 8,316 criterios de nodo hoja. Cada rollout usa una GPU A10 por 12 horas. La cuenta por artículo es brutal:

  • $400 en API por rollout de o1 IterativeAgent, por 20 artículos = $8,000 por evaluación
  • $66 por artículo para evaluación con el juez o3-mini = $1,320 para el benchmark completo
  • Total: $9,500 por evaluación de agente

OpenAI construyó PaperBench Code-Dev—una variante que elimina la ejecución—porque muchos grupos no pueden pagar el benchmark completo. El hecho de que un laboratorio de frontera necesite crear una versión más barata de su propio benchmark para que la comunidad lo use te lo dice todo sobre el estado actual de la economía de evaluación.

El Campo No Puede Seguir Pagando al Menudeo

Una razón por la que estos números se mantienen altos es que todos pagan por la misma evaluación una y otra vez. Un laboratorio de frontera paga por un barrido HAL. Un grupo académico paga de nuevo por una reproducción parcial. Una organización de auditoría paga una tercera vez. Un periodista paga una cuarta para verificar el leaderboard. Casi ninguno de los resultados subyacentes a nivel de instancia termina en un lugar donde el próximo equipo pueda construir sobre ellos.

La documentación estandarizada es la palanca más barata disponible. Si un rollout de PaperBench de $9,500 exporta su rastro de evaluación completo en un esquema compartido, el próximo grupo que estudie los mismos artículos puede gastar su presupuesto en nuevas perturbaciones en lugar de repetir la línea base. Incluso una tasa de reutilización de 2× en los benchmarks de alto costo pondría más dinero de vuelta en el ecosistema que todas las técnicas de compresión juntas.

Limitaciones y Precauciones

  • Las técnicas de compresión son parciales. Flash-HELM, tinyBenchmarks y Anchor Points funcionan bien para benchmarks estáticos (reducción de 100× a 200×), pero los benchmarks de agentes son ruidosos, sensibles al scaffold y solo parcialmente compresibles. El filtrado de dificultad media logra una reducción de 2× a 3.5×—útil, pero muy lejos de las ganancias de la era estática.
  • Los benchmarks con entrenamiento en el bucle no tienen un método de compresión general. La precomputación tabular y los límites de presupuesto ajustados pueden reducir el costo solo estrechando lo que mide el benchmark. La asimetría fundamental—cómputo de evaluación superando al cómputo de entrenamiento en dos órdenes de magnitud—es estructural.
  • Las cifras de costo son límites inferiores. Muchos evaluadores ya están excluidos por precio. Las cifras anteriores asumen precios óptimos y sin reintentos. Los costos del mundo real son a menudo más altos.

Lectura Recomendada

Si este análisis resonó contigo, aquí tienes dos inmersiones profundas relacionadas:

Conclusión

La evaluación ahora tiene sus propios presupuestos de cómputo, métodos estadísticos y modos de fallo. Su precio moldea quién puede evaluar sistemas poderosos en primer lugar. El campo todavía habla como si la capacidad definiera la restricción principal, pero la evaluación apunta a la confiabilidad como la más ajustada. Las instituciones de gobernanza deberían querer medir la brecha entre la precisión de una sola ejecución y la consistencia pass^k, pero esa brecha es la más cara de medir.

La economía ha cambiado. Quien pueda pagar por la evaluación escribe el leaderboard.

Este análisis se basa en el post del EvalEval Coalition Blog de Ghosh, Mai, Channing y Choshen (2026).

Cost analysis dashboard showing AI evaluation expenses across multiple benchmarks Technical Structure Concept

Este contenido fue redactado con la asistencia de herramientas de IA, basándose en fuentes confiables, y fue revisado por nuestro equipo editorial antes de su publicación. No reemplaza el asesoramiento de un profesional especializado.