Tokenización
Proceso de dividir un texto en unidades más pequeñas llamadas tokens, que pueden ser palabras, fragmentos de palabra o caracteres. Es el primer paso para que un modelo de lenguaje pueda procesar texto.
Proceso de dividir un texto en unidades más pequeñas llamadas tokens, que pueden ser palabras, fragmentos de palabra o caracteres. Es el primer paso para que un modelo de lenguaje pueda procesar texto.
Actualizado: 3 de junio de 2026.
Los modelos no leen letras: leen tokens. La tokenización convierte "inteligencia" en uno o varios fragmentos numéricos que el modelo entiende. En español, las palabras con acentos o poco frecuentes suelen partirse en más tokens que en inglés.
Por qué importa
El número de tokens determina cuánto cabe en la ventana de contexto y cuánto cuesta cada llamada, ya que el coste por token se factura sobre esta unidad. Un texto mal tokenizado desperdicia contexto y dinero.
Ejemplo
"Aprende IA" puede convertirse en algo como ["Apr", "ende", " IA"], tres tokens. Cada modelo tiene su propio tokenizador.