Benchmark (de IA)
Prueba estandarizada que mide y compara el rendimiento de modelos en tareas concretas, como razonamiento, código o comprensión lectora. Permite comparar modelos de forma objetiva.
Prueba estandarizada que mide y compara el rendimiento de modelos en tareas concretas, como razonamiento, código o comprensión lectora. Permite comparar modelos de forma objetiva.
Actualizado: 3 de junio de 2026.
Un benchmark es un examen común que todos los modelos rinden bajo las mismas reglas. Ejemplos conocidos miden conocimiento general, matemáticas, programación o capacidad de razonamiento.
Cuidado con la saturación
Cuando los modelos "memorizan" un benchmark o este aparece en sus datos de entrenamiento, deja de discriminar. Por eso surgen continuamente pruebas nuevas y más difíciles.
Cómo leerlos
Una puntuación alta no garantiza utilidad real para tu caso. Conviene complementar los benchmarks con pruebas sobre tus propios datos.