- Investigadores de las mejores universidades estadounidenses advierten que extender el pre-entrenamiento puede ser perjudicial para el rendimiento
- Demasiado pre-entrenamiento puede ofrecer un peor rendimiento debido a algo parecido al efecto de la mariposa
- Cuanto más se entrenen, más se vuelven sensibles a pequeños cambios que podrían interrumpir el resultado final
Los investigadores de Carnegie Mellon, Stanford, Harvard y Princeton están desafiando una de las creencias centrales aceptadas de AI Development, que cuanto más datos de entrenamiento, mejor será el rendimiento.
Según lo informado por Hpcwireun nuevo documento describe el concepto de “sobreentrenamiento catastrófico”, por el cual el pretraben extendido puede dañar el rendimiento de un modelo después del ajuste.
Los investigadores compararon dos versiones del modelo OLMO-1B, uno entrenó en 2.3 billones de tokens y otra con 3 billones de billones. A pesar del conjunto de entrenamiento más grande, el modelo más ampliamente entrenado se realizó hasta un 3% peor en puntos de referencia como Alpacaeval y ARC.
Alcanzar el punto de inflexión
Esta caída de rendimiento, según el estudio, está vinculada a un fenómeno llamado “sensibilidad progresiva”.
A medida que aumenta el recuento de tokens, el modelo se vuelve más frágil. Incluso los pequeños ajustes, como los ajustes durante el ajuste fino, o la introducción del ruido, pueden revertir las ganancias anteriores.
Los autores demostraron esto inyectando el ruido gaussiano en modelos previamente capacitados, señalando que el rendimiento se degradó más bruscamente cuanto más tiempo se entrenó el modelo.
El punto en el que este entrenamiento adicional comienza a degradar el rendimiento se llama “punto de inflexión”.
Una vez alcanzado, los beneficios de la capacitación comienzan a ser superados por el riesgo de inestabilidad interna. El estudio encontró que este punto de inflexión a menudo ocurre más allá de 2.5 billones de tokens en modelos más pequeños, como OLMO-1B.
“El sobreentrenamiento catastrófico puede ser inevitable … especialmente cuando las tareas de pre-entrenamiento y ajuste fino están desalineadas”, advierten los autores en su artículo, a los que puede acceder a través del servidor de pre-impresión ARXIV.
Si bien los investigadores no sugieren el fin de la capacitación previa, sí sienten que los desarrolladores deberían considerar cuánta capacitación es suficiente. Como concluye el documento, “nuestros hallazgos requieren un enfoque renovado en la escala del modelo que considera toda la tubería de capacitación”.
Para los desarrolladores de IA persiguiendo la escala, el mensaje parece claro: a veces, menos es más.