Conjunto de datos (dataset)
Colección estructurada de ejemplos que se usa para entrenar, validar o evaluar un modelo. Su tamaño, calidad y representatividad determinan en gran medida el rendimiento del modelo.
Colección estructurada de ejemplos que se usa para entrenar, validar o evaluar un modelo. Su tamaño, calidad y representatividad determinan en gran medida el rendimiento del modelo.
Actualizado: 3 de junio de 2026.
Un conjunto de datos suele dividirse en tres partes: entrenamiento (para aprender), validación (para ajustar) y prueba (para medir el rendimiento final sin trampas).
Calidad antes que cantidad
Datos sucios, sesgados o mal etiquetados producen modelos defectuosos por mucho que abunden. Limpiar y curar el dataset suele aportar más que cambiar de algoritmo.
Fuentes
Pueden venir de registros reales, etiquetado humano o generarse como datos sintéticos cuando los reales escasean o son sensibles.