Latencia de inferencia

Tiempo que tarda un modelo en devolver una respuesta tras recibir una entrada. Es un factor clave en la experiencia de usuario y en el coste de las aplicaciones de IA.

Tiempo que tarda un modelo en devolver una respuesta tras recibir una entrada. Es un factor clave en la experiencia de usuario y en el coste de las aplicaciones de IA.

Actualizado: 3 de junio de 2026.

En un asistente, la latencia es lo que el usuario percibe como "rapidez". Modelos más grandes y razonadores suelen ser más lentos; modelos pequeños o cuantizados, más ágiles.

Cómo reducirla

Cuantización, destilación, mejor hardware (GPU/TPU), respuestas en streaming y elegir el modelo adecuado para cada tarea.

Compromiso

Suele haber tensión entre calidad, coste por token y latencia. El reto es equilibrarlos según el caso de uso.