Según los informes, Nvidia ha roto otro récord mundial de IA, rompiendo las 1,000 tokens por segundo (TPS) de barrera por usuario con el modelo de lenguaje grande Meta’s Llama 4 Maverick, según el análisis artificial en una publicación sobre LinkedIn. Este avance se logró con el último nodo DGX B200 de Nvidia, que presenta ocho GPU de Blackwell.
NVIDIA superó al titular de registro anterior, Sambanova, en un 31%, logrando 1,038 TPS/usuario en comparación con el registro anterior del fabricante de chips de IA de 792 TPS/usuario. Según el informe de referencia de Artificial Analysis, Nvidia y Sambanova están muy por delante de todos en esta métrica de actuación. Amazon y Groq lograron puntajes apenas 300 TPS/usuario: el resto, fuegos artificiales, Lambda Labs, Kluster.ai, Centml, Google Vertex, Together.ai, Deepinfra, Novita y Azure, todos alcanzados por debajo de 200 tps/usuario.
El resultado récord de Blackwell se logró utilizando una gran cantidad de optimizaciones de rendimiento a medida a la arquitectura de Llama 4 Maverick. Nvidia supuestamente realizó amplias optimizaciones de software utilizando Tensorrt y capacitó un modelo de borrador de decodificación especulativo utilizando técnicas Eagle-3, que están diseñadas para acelerar la inferencia en LLM mediante la predicción de tokens con anticipación. Estas dos optimizaciones solo lograron una elevación de rendimiento 4X en comparación con los mejores resultados anteriores de Blackwell.
La precisión también mejoró utilizando los tipos de datos FP8 (en lugar de BF16), operaciones de atención y la mezcla de expertos en la técnica de IA que llevaron al mundo por asalto cuando se introdujo por primera vez con el modelo Deepseek R1. NVIDIA también compartió una variedad de otras optimizaciones que sus ingenieros de software hicieron al núcleo CUDA para optimizar aún más el rendimiento, incluidas técnicas como la partición espacial y el peso de GEMM.
TPS/User es una métrica de rendimiento de IA que significa tokens por segundo por usuario. Los tokens son la base del software con alimentación de LLM como Copilot y ChatGPT; Cuando escribe una pregunta en chatgpt o copilot, sus palabras y caracteres individuales son tokens. El LLM toma estas fichas y genera una respuesta basada en esos tokens de acuerdo con la programación de la LLM.
La parte del usuario (de TPS/usuario) está dirigida a la evaluación comparativa de un solo usuario, en lugar de un lote. Este método de evaluación comparativa es importante para que los desarrolladores de chatbot de IA creen una mejor experiencia para las personas. Cuanto más rápido sea un clúster de GPU tokens por segundo por usuario, más rápido se le responderá un chatbot de IA.
Seguir Hardware de Tom en Google News Para obtener nuestras noticias, análisis y revisiones actualizadas en sus feeds. Asegúrese de hacer clic en el botón Forzar.