Mezcla de expertos (MoE)

Arquitectura en la que el modelo se divide en muchos subredes 'expertas' y un enrutador activa solo unas pocas por cada token. Permite modelos enormes que, en inferencia, usan solo una fracción de sus parámetros.

Actualizado: 3 de junio de 2026.

En un modelo MoE, no todas las neuronas trabajan en cada consulta. Un enrutador elige qué "expertos" activar para cada token, de modo que un modelo con cientos de miles de millones de parámetros solo usa una parte en cada paso.

La ventaja

Más capacidad total sin disparar el coste de inferencia: se obtiene la calidad de un modelo gigante con el coste de uno mediano.

Dónde se ve

Muchos modelos punteros recientes, abiertos y cerrados, adoptan MoE para escalar de forma eficiente.