Transformer

Arquitectura de red neuronal, presentada por Google en 2017, que procesa secuencias completas en paralelo usando el mecanismo de atención. Es la base de los modelos de lenguaje modernos como GPT, Claude y Gemini.

Actualizado: 3 de junio de 2026.

El transformer eliminó la necesidad de procesar el texto palabra por palabra en orden. En su lugar, analiza todos los tokens a la vez y usa el mecanismo de atención para decidir qué partes de la secuencia son relevantes para cada otra.

Por qué fue revolucionario

El paper "Attention Is All You Need" (Vaswani et al., 2017) demostró que la atención bastaba para superar a las redes recurrentes en traducción, y además permitía entrenar en paralelo aprovechando las GPU. Eso hizo posible escalar a modelos con miles de millones de parámetros.

Su legado

La "T" de GPT significa precisamente Transformer. Hoy esta arquitectura domina el procesamiento de lenguaje y se extiende a imágenes, audio y modelos multimodales.