Mecanismo de atención

Componente de los transformers que permite al modelo ponderar la importancia de cada token respecto a los demás al procesar una secuencia. Gracias a él, el modelo capta relaciones a larga distancia dentro del texto.

Actualizado: 3 de junio de 2026.

La atención responde a una pregunta sencilla: al interpretar esta palabra, ¿a cuáles otras debo mirar? Por ejemplo, en "el gato que vimos ayer estaba dormido", la atención conecta "estaba" con "gato" aunque haya varias palabras de por medio.

Cómo funciona

Cada token genera tres vectores —consulta, clave y valor— y el modelo calcula cuánta atención presta un token a otro comparando consultas y claves. El resultado es una mezcla ponderada que enriquece la representación de cada token.

Por qué importa

Es lo que da al transformer su capacidad de entender contexto. La ventana de contexto está limitada en parte por el coste de cálculo de la atención, que crece con la longitud de la secuencia.