Home Economía Meta es atrapado Gaming Ai Benchmarks con Llama 4

Meta es atrapado Gaming Ai Benchmarks con Llama 4

11
0

Durante el fin de semana, Meta lanzó dos nuevos modelos LLAMA 4: un modelo más pequeño llamado Scout, y Maverick, un modelo de tamaño mediano que la compañía afirma puede vencer a GPT-4O y Gemini 2.0 Flash “en una amplia gama de puntos de referencia ampliamente reportados”.

Maverick rápidamente aseguró el número dos en Lmarena, el sitio de referencia de IA donde los humanos comparan los resultados de diferentes sistemas y votan sobre el mejor. En el comunicado de prensa de Meta, la compañía destacó el puntaje ELO de Maverick de 1417, que lo colocó sobre el 4O de OpenAi y justo debajo de Gemini 2.5 Pro. (Una puntuación ELO más alta significa que el modelo gana más a menudo en la arena cuando se enfrenta cara a cara con los competidores).

El logro parecía colocar la Llama 4 de peso abierto de Meta como un retador serio para los modelos cerrados de última generación de OpenAi, Anthrope y Google. Luego, los investigadores de IA cavando a través de la documentación de Meta descubrieron algo inusual.

En letra pequeña, Meta reconoce que la versión de Maverick probada en Lmarena no es la misma que está disponible para el público. Según los propios materiales de Meta, desplegó una “versión experimental de chat” de Maverick a Lmarena que estaba específicamente “optimizada para la conversación”, TechCrunch Primero informado.

“La interpretación de Meta de nuestra política no coincidió con lo que esperamos de los proveedores de modelos”, publicó Lmarena en X dos días después del lanzamiento del modelo. “Meta debería haber dejado más claro que ‘Llama-4-Maverick-03-26-Experimental’ fue un modelo personalizado para optimizar para la preferencia humana. Como resultado de eso, estamos actualizando nuestras políticas de placa de clasificación para reforzar nuestro compromiso con evaluaciones justas y reproducibles, por lo que esta confusión no ocurre en el futuro”.

Un portavoz de Meta, Ashley Gabriel, dijo en una declaración enviada por correo electrónico que “experimentamos con todo tipo de variantes personalizadas”.

“‘Llama-4-Maverick-03-26-Experimental’ es una versión optimizada de chat con la que experimentamos que también funciona bien en Lmarena”, dijo Gabriel. “Ahora hemos lanzado nuestra versión de código abierto y veremos cómo los desarrolladores personalizan a Llama 4 para sus propios casos de uso. Estamos emocionados de ver qué construirán y esperamos sus comentarios continuos”.

Si bien lo que Meta hizo con Maverick no está explícitamente contra las reglas de Lmarena, el sitio ha compartido preocupaciones sobre los juegos del sistema y ha tomado medidas para “evitar el sobreajuste y la fuga de referencia”. Cuando las empresas pueden enviar versiones especialmente ajustadas de sus modelos para realizar pruebas mientras lanzan diferentes versiones al público, las clasificaciones de referencia como Lmarena se vuelven menos significativas como indicadores de rendimiento del mundo real.

“Es el punto de referencia general más respetado porque todos los demás apestan”, dice el investigador de IA independiente Simon Willison El borde. “Cuando salió Llama 4, el hecho de que fue segundo en la arena, justo después de Gemini 2.5 Pro, eso realmente me impresionó, y me estoy pateando por no leer la impresión pequeña”.

Poco después de que Meta lanzó a Maverick y Scout, la comunidad de IA comenzó a hablar sobre un rumor de que Meta también había capacitado a sus modelos LLAMA 4 para funcionar mejor en los puntos de referencia mientras ocultaba sus limitaciones reales. El vicepresidente de IA generativo en Meta, Ahmad al-Dahle, abordó las acusaciones en una publicación sobre X: “También hemos escuchado afirmaciones de que entrenamos en conjuntos de pruebas, eso simplemente no es cierto y nunca lo haríamos. Nuestra mejor comprensión es que la calidad variable está viendo es debida a la necesidad de estabilizar las implementaciones”.

“Es un lanzamiento muy confuso en general”.

Algunos también notaron que Llama 4 fue lanzado en un momento extraño. El sábado no tiende a ser cuando las grandes noticias de IA caen. Después de que alguien en Threads preguntó por qué Llama 4 fue lanzado durante el fin de semana, el CEO de Meta Mark Zuckerberg respondió: “Fue entonces cuando estaba listo”.

“Es un lanzamiento muy confuso en general”, dice Willison, quien sigue de cerca y documenta los modelos de IA. “La puntuación del modelo que tenemos allí no tiene valor para mí. Ni siquiera puedo usar el modelo en el que obtuvieron una puntuación alta”.

El camino de Meta para liberar a Llama 4 no era exactamente suave. Según un informe reciente de La informaciónla compañía retiró repetidamente el lanzamiento debido a que el modelo no cumplió con las expectativas internas. Esas expectativas son especialmente altas después de que Deepseek, una startup de IA de código abierto de China, lanzó un modelo de peso abierto que generó un montón de rumores.

En última instancia, el uso de un modelo optimizado en Lmarena pone a los desarrolladores en una posición difícil. Al seleccionar modelos como Llama 4 para sus aplicaciones, naturalmente buscan puntos de referencia para obtener orientación. Pero como es el caso de Maverick, esos puntos de referencia pueden reflejar capacidades que en realidad no están disponibles en los modelos a los que el público puede acceder.

A medida que el desarrollo de IA acelera, este episodio muestra cómo los puntos de referencia se están convirtiendo en campos de batalla. También muestra cómo Meta está ansioso por ser visto como un líder de IA, incluso si eso significa jugar el sistema.

Actualización, 7 de abril: La historia se actualizó para agregar la declaración de Meta.

LEAVE A REPLY

Please enter your comment!
Please enter your name here