Inferencia

Fase en la que un modelo ya entrenado se usa para generar predicciones o respuestas a partir de nuevas entradas. A diferencia del entrenamiento, la inferencia no modifica los pesos del modelo.

Fase en la que un modelo ya entrenado se usa para generar predicciones o respuestas a partir de nuevas entradas. A diferencia del entrenamiento, la inferencia no modifica los pesos del modelo.

Actualizado: 3 de junio de 2026.

Cuando escribes un prompt y recibes una respuesta, estás ejecutando una inferencia. El modelo aplica los pesos que aprendió durante el entrenamiento para producir el resultado, token a token.

Coste y velocidad

La inferencia consume recursos cada vez que se usa el modelo, por lo que su coste se mide en coste por token y su rapidez en latencia. Técnicas como la cuantización y la destilación reducen ese coste sin reentrenar.

Entrenamiento vs. inferencia

El entrenamiento ocurre una vez (es caro y lento); la inferencia ocurre millones de veces (debe ser barata y rápida). Optimizar la inferencia es clave para llevar la IA a producción.