Token

Un token es la unidad mínima de texto —una palabra, un fragmento de palabra, un signo o un carácter— en la que un modelo de lenguaje divide la entrada y la salida para poder procesarla.

Token

Un token es la unidad mínima de texto —una palabra, un fragmento de palabra, un signo o un carácter— en la que un modelo de lenguaje divide lo que recibe y lo que genera. El modelo no "lee" letras ni palabras: las convierte en tokens, y cada token en un número. Por eso el token, y no la palabra, es la verdadera unidad de coste, latencia y memoria en la IA generativa.

El token es la moneda de la IA generativa: las APIs de OpenAI, Anthropic y Google no facturan por palabras ni por caracteres, sino por tokens de entrada (tu prompt) y de salida (la respuesta del modelo). Entender los tokens es entender cuánto cuesta y cuánto cabe en cada llamada.

Actualizado: 31 de mayo de 2026

Cómo funciona la tokenización

Antes de procesar una frase, el modelo la pasa por un tokenizador, que la divide en tokens y asigna a cada uno un número de un vocabulario fijo. Esos números se transforman luego en vectores (los embeddings) que el modelo sí puede procesar. El proceso ocurre en ambos sentidos: el modelo genera tokens uno a uno y el tokenizador los vuelve a convertir en texto legible.

Modelos como GPT-4o usan el tokenizador o200k_base (un vocabulario de unos 200.000 tokens) a través de la librería abierta tiktoken; GPT-3.5 y GPT-4 usaban cl100k_base. Claude (Anthropic) y Gemini (Google) tienen sus propios tokenizadores, por lo que el mismo texto puede dar recuentos distintos según el proveedor.

Cuántas palabras es un token

No hay una equivalencia exacta —depende del idioma y del tokenizador— pero la regla práctica oficial de OpenAI sirve para estimar:

1 token ≈ 4 caracteres en inglés.
100 tokens ≈ 75 palabras, así que 1.000 tokens ≈ 750 palabras.

Fuente: OpenAI Help Center, "What are tokens and how to count them".

En español la proporción es algo menos favorable: los acentos, la eñe y las palabras más largas hacen que un mismo texto consuma más tokens que en inglés. Como referencia mental, una palabra común suele costar entre 1 y 3 tokens.

Ejemplos de tokenización

IA → 1 token
inteligencia → suele dividirse en 2-3 subpalabras (int, eligencia...)
2026 → puede ser 1 o varios tokens según el tokenizador
un emoji o un carácter poco frecuente → puede ocupar varios tokens

Tipos de tokenización

Estrategia	Cómo divide el texto	Uso típico
Por palabras	Una palabra = un token	Modelos clásicos; falla con palabras desconocidas
Subpalabras (BPE)	Fragmentos frecuentes de palabra	GPT, Claude, Gemini (estándar actual)
Por caracteres / bytes	Letra o byte = token	Robusto ante cualquier idioma o símbolo

Tabla comparativa actualizada a mayo de 2026. La inmensa mayoría de los LLM modernos usan tokenización por subpalabras (variantes de Byte-Pair Encoding, o BPE): un equilibrio entre un vocabulario manejable y la capacidad de representar cualquier palabra, idioma o símbolo.

Por qué importan los tokens

Coste: las APIs facturan por token y distinguen entrada (input) de salida (output), normalmente con precios distintos. Un prompt largo o una respuesta extensa salen más caros.
Ventana de contexto: cada modelo tiene un máximo de tokens (prompt + respuesta) que puede manejar a la vez.
Latencia: generar más tokens de salida implica más tiempo de cómputo.

Ventanas de contexto por modelo

Modelo	Ventana de contexto
GPT-4o (OpenAI)	128.000 tokens
Claude (Anthropic, Sonnet/Opus)	200.000 tokens (hasta 1M en beta)
Gemini 1.5 / 2.5 Pro (Google)	hasta 1-2 millones de tokens

Valores publicados por los proveedores; datos de mayo de 2026. Las ventanas de contexto han crecido de unos pocos miles de tokens en 2020 a más de un millón en 2025-2026, lo que permite "pegar" libros enteros o bases de código completas en una sola petición (fuente: documentación oficial de OpenAI, Anthropic y Google DeepMind).

Una ventana de contexto enorme no significa que debas llenarla. Más tokens de entrada implican más coste y, a menudo, peor precisión: los modelos pueden "perder" información situada en mitad de contextos muy largos. Cuando necesites datos externos extensos, suele salir mejor usar RAG que pegar documentos completos.

Cómo ahorrar tokens

Sé conciso en el prompt y elimina contexto redundante.
Limita la salida con parámetros como max_tokens para evitar respuestas innecesariamente largas.
Usa RAG en lugar de pegar documentos enteros: recuperas solo los fragmentos relevantes y reduces tanto el consumo de tokens como el coste.
Reutiliza contexto cacheado cuando el proveedor lo permita (por ejemplo, prompt caching), para no pagar dos veces por las mismas instrucciones.

Tokens en el día a día del prompting

Entender los tokens es clave para el prompt engineering: te ayuda a estimar costes, a no superar la ventana de contexto y a dimensionar las respuestas. También explica por qué a veces un modelo "corta" su salida a mitad de frase: ha alcanzado el límite de tokens de salida configurado.

Tanto si usas un LLM directamente como dentro de un flujo de RAG o de fine-tuning, el token sigue siendo la unidad real de medida. Medir en tokens, y no en palabras, es la diferencia entre estimar bien o mal el coste de un proyecto de IA.

Aprende más

¿Qué es un LLM? — el tipo de modelo que procesa y genera tokens.
Guía de prompt engineering — cómo escribir prompts eficientes en tokens.
Guía de RAG para empresas — cómo reducir tokens recuperando solo lo relevante.

Token

Token

Cómo funciona la tokenización

Cuántas palabras es un token

Ejemplos de tokenización

Tipos de tokenización

Por qué importan los tokens

Ventanas de contexto por modelo

Cómo ahorrar tokens

Tokens en el día a día del prompting

Aprende más

Términos relacionados