Ventana de contexto

La ventana de contexto es la cantidad máxima de tokens (texto, código, imágenes o audio convertidos a unidades) que un modelo de lenguaje puede procesar a la vez, sumando la entrada del usuario y la respuesta generada.

Ventana de contexto

La ventana de contexto es la cantidad máxima de tokens que un modelo de IA puede procesar en una sola petición, sumando lo que envías y lo que responde. Funciona como su memoria de trabajo: todo lo que cabe dentro influye en el razonamiento, y todo lo que queda fuera deja de existir para el modelo en ese momento.

Un token no es una palabra: es una unidad de texto que puede ser una palabra, parte de una palabra, un signo de puntuación o un espacio. En español, una regla práctica es ~1,3-1,5 tokens por palabra. Así, "ventana de contexto" ocupa unos 5-6 tokens.

Cómo funciona

Cuando envías un mensaje a un modelo como GPT-5, Claude o Gemini, el sistema concatena varias piezas dentro de una misma ventana:

Instrucciones de sistema (el "system prompt" que define el comportamiento).
Tu prompt y los documentos o archivos que adjuntes.
El historial de la conversación (en un chat, los turnos anteriores).
La respuesta que el modelo está generando (los tokens de salida).

Todo eso compite por el mismo presupuesto de tokens. Si la suma supera el límite, el modelo (o la aplicación) trunca el contenido más antiguo o devuelve un error. Por eso, en conversaciones largas, un asistente puede "olvidar" lo que dijiste al principio: ha quedado fuera de la ventana.

Tamaños de ventana de los modelos líderes (2026)

Por qué importa el tamaño (y por qué no es magia)

Una ventana grande permite tareas que antes eran imposibles en una sola pasada: resumir un contrato de 200 páginas, analizar un repositorio de código completo o mantener una conversación muy larga sin perder el hilo.

1.000.000 tokensGoogle DeepMind, documentación de Gemini, 2025

Pero más contexto no significa automáticamente mejores respuestas. Tres limitaciones clave:

Efecto "lost in the middle": la investigación de Liu et al. (2023), "Lost in the Middle: How Language Models Use Long Contexts" (Stanford/UC Berkeley), demostró que los modelos recuperan mejor la información situada al principio y al final del contexto, y pierden precisión con datos enterrados en la mitad.
Coste y latencia: se paga por token, así que llenar una ventana de un millón de tokens en cada llamada es caro y lento.
Ruido: volcar documentos irrelevantes diluye la atención del modelo y puede degradar la calidad.

Aumentar la ventana no sustituye a una buena ingeniería de contexto. Para conocimiento que cambia o que es enorme, casi siempre conviene RAG (recuperar solo los fragmentos relevantes) en lugar de cargar todo el corpus en cada petición.

Ventana de contexto vs. RAG vs. fine-tuning

Son tres formas complementarias de dar conocimiento a un modelo:

Ventana de contexto: memoria temporal e inmediata. Ideal para material puntual de una sesión (un PDF que acabas de subir).
RAG (Retrieval-Augmented Generation): recupera dinámicamente los fragmentos relevantes de una base de datos y los inserta en la ventana. Ideal para bases de conocimiento grandes y cambiantes.
Fine-tuning: modifica los pesos del modelo para internalizar un estilo o dominio. Ideal para comportamiento estable y recurrente, no para datos frescos.

Un patrón profesional común combina los tres: un modelo afinado que usa RAG para traer datos a una ventana de contexto bien gestionada.

Ejemplo práctico

Imagina un asistente legal con ventana de 200.000 tokens. Le subes un contrato de 50 páginas (~30.000 tokens) y le haces preguntas. Mientras la conversación más el contrato no superen los 200.000 tokens, el modelo "ve" todo el documento. Si además pegaras la jurisprudencia de cientos de casos, lo correcto no sería ampliar la ventana indefinidamente, sino indexar esos casos con RAG y recuperar solo los 3-4 más relevantes por consulta.

Cómo aprovecharla bien

Coloca lo más importante al principio o al final del prompt, no en mitad de un bloque enorme.
Resume o comprime el historial largo en lugar de arrastrarlo entero.
Usa RAG cuando el conocimiento supere cómodamente la ventana o cambie a menudo.
Mide el consumo de tokens: la mayoría de APIs lo reportan por petición.

Actualizado: 31 de mayo de 2026 — Equipo editorial de AIClases. Las cifras de ventana de contexto se revisan con cada nueva versión de los modelos; consulta la documentación oficial de cada proveedor para datos en tiempo real.