Nos guste o no, los modelos de lenguaje grande se han incrustado rápidamente en nuestras vidas. Y debido a sus intensas necesidades de energía y agua, también podrían estar causando en espiral aún más rápido en el caos climático. Sin embargo, algunos LLM podrían estar liberando más contaminación de calmamiento de planetas que otros, según un nuevo estudio.
Las consultas hechas a algunos modelos generan hasta 50 veces más emisiones de carbono que otras, según un nuevo estudio publicado en Fronteras en comunicación. Desafortunadamente, y tal vez, como era de esperar, los modelos que son más precisos tienden a tener los mayores costos de energía.
Es difícil estimar cuán malas son los LLM para el medio ambiente, pero algunos estudios han sugerido que la capacitación de CHATGPT utilizó hasta 30 veces más energía que los usos promedio estadounidense en un año. Lo que no se sabe es si algunos modelos tienen costos de energía más pronunciados que sus pares, ya que están respondiendo preguntas.
Investigadores de la Universidad de Ciencias Aplicadas de Hochschule München en Alemania evaluaron 14 LLM que varían de 7 a 72 mil millones de parámetros, las palancas y los diales que ajustan la comprensión y la generación de idiomas de un modelo, en 1,000 preguntas de referencia sobre diversas materias.
LLMS convierte cada palabra o parte de las palabras en una solicitud en una cadena de números llamado token. Algunos LLM, particularmente razonando LLM, también inserta “tokens de pensamiento” especiales en la secuencia de entrada para permitir un cálculo interno y razonamiento adicionales antes de generar la salida. Esta conversión y los cálculos posteriores que realiza el LLM en los tokens usan energía y libera CO2.
Los científicos compararon el número de tokens generados por cada uno de los modelos que probaron. Los modelos de razonamiento, en promedio, crearon 543.5 tokens de pensamiento por pregunta, mientras que los modelos concisos requirieron solo 37.7 tokens por pregunta, según el estudio. En el mundo del chatgpt, por ejemplo, GPT-3.5 es un modelo conciso, mientras que GPT-4O es un modelo de razonamiento.
Este proceso de razonamiento aumenta las necesidades de energía, encontraron los autores. “El impacto ambiental de las LLM capacitadas en cuestionamiento está fuertemente determinado por su enfoque de razonamiento”, dijo en un comunicado el autor de estudio Maximilian Dauner, investigador de la Universidad de Ciencias Aplicadas Hochschule München. “Descubrimos que los modelos habilitados para el razonamiento producían hasta 50 veces más emisiones de CO2 que los modelos de respuesta concisa”.
Cuanto más precisos eran los modelos, más emisiones de carbono produjeron, encontró el estudio. El modelo de razonamiento Cogito, que tiene 70 mil millones de parámetros, alcanzó una precisión de hasta 84.9%, pero también produjo tres veces más emisiones de CO2 que los modelos de tamaño similar que generan respuestas más concisas.
“Actualmente, vemos una clara compensación de la sostenibilidad de precisión inherente a las tecnologías de LLM”, dijo Dauner. “Ninguno de los modelos que mantuvieron emisiones por debajo de 500 gramos de equivalente de CO2 alcanzó una precisión superior al 80% para responder correctamente las 1,000 preguntas”. El equivalente de CO2 es la unidad utilizada para medir el impacto climático de varios gases de efecto invernadero.
Otro factor fue el tema. Las preguntas que requerían un razonamiento detallado o complejo, por ejemplo, el álgebra abstracta o la filosofía, condujeron a emisiones hasta seis veces más altas que más sencillos, según el estudio.
Sin embargo, hay algunas advertencias. Las emisiones dependen mucho de cómo se estructuran las redes de energía locales y de los modelos que examina, por lo que no está claro cuán generalizables son estos hallazgos. Aún así, los autores del estudio dijeron que esperan que el trabajo aliente a las personas a ser “selectivas y reflexivas” sobre el uso de LLM.
“Los usuarios pueden reducir significativamente las emisiones al incitar a AI a generar respuestas concisas o limitar el uso de modelos de alta capacidad a tareas que realmente requieren esa potencia”, dijo Dauner en un comunicado.