Token

Un token es la unidad mínima de texto —una palabra, un fragmento de palabra, un signo o un carácter— en la que un modelo de lenguaje divide la entrada y la salida para poder procesarla.

Token

Un token es la unidad mínima de texto —una palabra, un fragmento de palabra, un signo o un carácter— en la que un modelo de lenguaje divide lo que recibe y lo que genera. El modelo no "lee" letras ni palabras: las convierte en tokens, y cada token en un número. Por eso el token, y no la palabra, es la verdadera unidad de coste, latencia y memoria en la IA generativa.

El token es la moneda de la IA generativa: las APIs de OpenAI, Anthropic y Google no facturan por palabras ni por caracteres, sino por tokens de entrada (tu prompt) y de salida (la respuesta del modelo). Entender los tokens es entender cuánto cuesta y cuánto cabe en cada llamada.

Actualizado: 31 de mayo de 2026

Cómo funciona la tokenización

Antes de procesar una frase, el modelo la pasa por un tokenizador, que la divide en tokens y asigna a cada uno un número de un vocabulario fijo. Esos números se transforman luego en vectores (los embeddings) que el modelo sí puede procesar. El proceso ocurre en ambos sentidos: el modelo genera tokens uno a uno y el tokenizador los vuelve a convertir en texto legible.

Modelos como GPT-4o usan el tokenizador o200k_base (un vocabulario de unos 200.000 tokens) a través de la librería abierta tiktoken; GPT-3.5 y GPT-4 usaban cl100k_base. Claude (Anthropic) y Gemini (Google) tienen sus propios tokenizadores, por lo que el mismo texto puede dar recuentos distintos según el proveedor.

Cuántas palabras es un token

No hay una equivalencia exacta —depende del idioma y del tokenizador— pero la regla práctica oficial de OpenAI sirve para estimar:

  • 1 token ≈ 4 caracteres en inglés.
  • 100 tokens ≈ 75 palabras, así que 1.000 tokens ≈ 750 palabras.

Fuente: OpenAI Help Center, "What are tokens and how to count them".

En español la proporción es algo menos favorable: los acentos, la eñe y las palabras más largas hacen que un mismo texto consuma más tokens que en inglés. Como referencia mental, una palabra común suele costar entre 1 y 3 tokens.

Ejemplos de tokenización

  • IA → 1 token
  • inteligencia → suele dividirse en 2-3 subpalabras (int, eligencia...)
  • 2026 → puede ser 1 o varios tokens según el tokenizador
  • un emoji o un carácter poco frecuente → puede ocupar varios tokens

Tipos de tokenización

EstrategiaCómo divide el textoUso típico
Por palabrasUna palabra = un tokenModelos clásicos; falla con palabras desconocidas
Subpalabras (BPE)Fragmentos frecuentes de palabraGPT, Claude, Gemini (estándar actual)
Por caracteres / bytesLetra o byte = tokenRobusto ante cualquier idioma o símbolo

Tabla comparativa actualizada a mayo de 2026. La inmensa mayoría de los LLM modernos usan tokenización por subpalabras (variantes de Byte-Pair Encoding, o BPE): un equilibrio entre un vocabulario manejable y la capacidad de representar cualquier palabra, idioma o símbolo.

Por qué importan los tokens

  1. Coste: las APIs facturan por token y distinguen entrada (input) de salida (output), normalmente con precios distintos. Un prompt largo o una respuesta extensa salen más caros.
  2. Ventana de contexto: cada modelo tiene un máximo de tokens (prompt + respuesta) que puede manejar a la vez.
  3. Latencia: generar más tokens de salida implica más tiempo de cómputo.

Ventanas de contexto por modelo

ModeloVentana de contexto
GPT-4o (OpenAI)128.000 tokens
Claude (Anthropic, Sonnet/Opus)200.000 tokens (hasta 1M en beta)
Gemini 1.5 / 2.5 Pro (Google)hasta 1-2 millones de tokens

Valores publicados por los proveedores; datos de mayo de 2026. Las ventanas de contexto han crecido de unos pocos miles de tokens en 2020 a más de un millón en 2025-2026, lo que permite "pegar" libros enteros o bases de código completas en una sola petición (fuente: documentación oficial de OpenAI, Anthropic y Google DeepMind).

Cómo ahorrar tokens

  • Sé conciso en el prompt y elimina contexto redundante.
  • Limita la salida con parámetros como max_tokens para evitar respuestas innecesariamente largas.
  • Usa RAG en lugar de pegar documentos enteros: recuperas solo los fragmentos relevantes y reduces tanto el consumo de tokens como el coste.
  • Reutiliza contexto cacheado cuando el proveedor lo permita (por ejemplo, prompt caching), para no pagar dos veces por las mismas instrucciones.

Tokens en el día a día del prompting

Entender los tokens es clave para el prompt engineering: te ayuda a estimar costes, a no superar la ventana de contexto y a dimensionar las respuestas. También explica por qué a veces un modelo "corta" su salida a mitad de frase: ha alcanzado el límite de tokens de salida configurado.

Tanto si usas un LLM directamente como dentro de un flujo de RAG o de fine-tuning, el token sigue siendo la unidad real de medida. Medir en tokens, y no en palabras, es la diferencia entre estimar bien o mal el coste de un proyecto de IA.

Aprende más

Términos relacionados

Hablar por WhatsApp