Operai ha desarrollado un par de nuevos modelos de lenguaje de peso abierto optimizados para las GPU de consumo. En una publicación de blog, Openai anunció “GPT-OSS-120B” y “GPT-OSS-20B”, el primero diseñado para ejecutarse en una sola GPU de 80 GB y la segunda optimizada para ejecutar dispositivos de borde con solo 16 GB de memoria.
Ambos modelos aprovechan un transformador utilizando el modelo de mezcla de expertos, un modelo que se popularizó con Deepseek R1. A pesar del enfoque de diseño de GPT-OSS-120B y 20B hacia las GPU del consumidor, ambas admiten hasta 131,072 longitudes de contexto, la más larga disponible para la inferencia local. GPT-OSS-120B activa 5.1 mil millones de parámetros por token, y GPT-OSS-20B activa 3.6 mil millones de parámetros por token. Ambos modelos utilizan patrones de atención de escasos densos y con bandas locales alternas y usan atención múltiple agrupada con un tamaño de grupo de 8.
Ambos modelos aprovechan una arquitectura de razonamiento de la cadena de pensamiento con un enfoque mixto en el razonamiento, la eficiencia y la usabilidad del mundo real. Los dos modelos GPT-ASS también son los primeros modelos de lenguaje de peso abierto desde GPT-2. Los modelos de IA abiertos son similares al software de código abierto, proporcionando una accesibilidad más fácil para los desarrolladores. Openai optó por hacer sus dos últimos modelos de código abierto para impulsar la adopción en los mercados emergentes y otros sectores que podrían carecer de la capacidad de adoptar sus modelos patentados.
El modelo GPT-OSS-20B supuestamente logra un rendimiento casi idéntico con el modelo de lenguaje O4-Mini saliente de OpenAI en los puntos de referencia de razonamiento central, pero es capaz de hacer todo esto en una sola GPU de 80 GB. GPT-OSS-20B ofrece un rendimiento similar al modelo de lenguaje O3-Mini saliente de Openii mientras es capaz de ejecutarse en dispositivos con solo 16 GB de memoria.
En evaluaciones OpenAi realizadas, GPT-OSS-120B superó a O3-Mini y coincidió o excedió O4-Mini en la codificación de competencia, la resolución de problemas generales y las llamadas de herramientas. Sin embargo, 120B también fue capaz de superar el O4-Mini en consultas relacionadas con la salud y las matemáticas de competencia. GPT-OSS-20B pudo realizar exactamente el mismo comportamiento de evaluación comparativa contra O3-Mini.
Los dos nuevos modelos Operai están disponibles para usar ahora bajo la licencia de código abierto Apache 2.0. OpenAI se ha asociado con una gran cantidad de compañías para apoyar sus últimos modelos en una variedad de plataformas, incluidas ONNX Runtime, Azure, AWS y Ollama.