Tokenización

Proceso de dividir un texto en unidades más pequeñas llamadas tokens, que pueden ser palabras, fragmentos de palabra o caracteres. Es el primer paso para que un modelo de lenguaje pueda procesar texto.

Actualizado: 3 de junio de 2026.

Los modelos no leen letras: leen tokens. La tokenización convierte "inteligencia" en uno o varios fragmentos numéricos que el modelo entiende. En español, las palabras con acentos o poco frecuentes suelen partirse en más tokens que en inglés.

Por qué importa

El número de tokens determina cuánto cabe en la ventana de contexto y cuánto cuesta cada llamada, ya que el coste por token se factura sobre esta unidad. Un texto mal tokenizado desperdicia contexto y dinero.

Ejemplo

"Aprende IA" puede convertirse en algo como ["Apr", "ende", " IA"], tres tokens. Cada modelo tiene su propio tokenizador.