Latencia de inferencia
Tiempo que tarda un modelo en devolver una respuesta tras recibir una entrada. Es un factor clave en la experiencia de usuario y en el coste de las aplicaciones de IA.
Tiempo que tarda un modelo en devolver una respuesta tras recibir una entrada. Es un factor clave en la experiencia de usuario y en el coste de las aplicaciones de IA.
Actualizado: 3 de junio de 2026.
En un asistente, la latencia es lo que el usuario percibe como "rapidez". Modelos más grandes y razonadores suelen ser más lentos; modelos pequeños o cuantizados, más ágiles.
Cómo reducirla
Cuantización, destilación, mejor hardware (GPU/TPU), respuestas en streaming y elegir el modelo adecuado para cada tarea.
Compromiso
Suele haber tensión entre calidad, coste por token y latencia. El reto es equilibrarlos según el caso de uso.