Benchmark (de IA)

Prueba estandarizada que mide y compara el rendimiento de modelos en tareas concretas, como razonamiento, código o comprensión lectora. Permite comparar modelos de forma objetiva.

Prueba estandarizada que mide y compara el rendimiento de modelos en tareas concretas, como razonamiento, código o comprensión lectora. Permite comparar modelos de forma objetiva.

Actualizado: 3 de junio de 2026.

Un benchmark es un examen común que todos los modelos rinden bajo las mismas reglas. Ejemplos conocidos miden conocimiento general, matemáticas, programación o capacidad de razonamiento.

Cuidado con la saturación

Cuando los modelos "memorizan" un benchmark o este aparece en sus datos de entrenamiento, deja de discriminar. Por eso surgen continuamente pruebas nuevas y más difíciles.

Cómo leerlos

Una puntuación alta no garantiza utilidad real para tu caso. Conviene complementar los benchmarks con pruebas sobre tus propios datos.