Preentrenamiento

Primera fase de entrenamiento de un modelo grande, en la que aprende patrones generales del lenguaje o del mundo a partir de corpus masivos, antes de cualquier especialización.

Primera fase de entrenamiento de un modelo grande, en la que aprende patrones generales del lenguaje o del mundo a partir de corpus masivos, antes de cualquier especialización.

Actualizado: 3 de junio de 2026.

En el preentrenamiento, un LLM aprende a predecir el siguiente token sobre billones de palabras. De ahí salen su gramática, conocimiento general y capacidad de razonar superficialmente.

Lo que viene después

Un modelo preentrenado sabe mucho pero no obedece bien. Por eso se le aplica luego fine-tuning de instrucciones y RLHF para que sea útil y seguro como asistente.

Coste

Es la parte más cara: requiere miles de GPU y semanas de cómputo. Por eso pocas organizaciones preentrenan modelos fundacionales desde cero.