Cuantización

Técnica que reduce la precisión numérica de los pesos de un modelo (por ejemplo de 16 a 4 bits) para que ocupe menos memoria y se ejecute más rápido, con una pérdida de calidad mínima.

Técnica que reduce la precisión numérica de los pesos de un modelo (por ejemplo de 16 a 4 bits) para que ocupe menos memoria y se ejecute más rápido, con una pérdida de calidad mínima.

Actualizado: 3 de junio de 2026.

Un modelo guarda cada peso como un número. La cuantización representa esos números con menos bits, reduciendo el tamaño del modelo a la mitad o más. Eso permite ejecutar LLM grandes en hardware modesto, incluso en un portátil.

Por qué funciona

Las redes neuronales toleran cierta imprecisión: bajar de 16 a 8 o 4 bits apenas degrada la calidad si se hace bien. Es lo que hace viable correr modelos con herramientas como Ollama en local.

Compromiso

Demasiada cuantización (por ejemplo 2 bits) sí empieza a notarse en la calidad. Es un equilibrio entre tamaño, velocidad y precisión.