- Fractile con sede en el Reino Unido está respaldado por la OTAN y quiere construir un compute de IA más rápido y más barato en memoria
- El enfoque de GPU Bruteforce de Nvidia consume demasiada potencia y la memoria retiene
- Los números de Fractile se centraron en un grupo de comparación de GPU H100, no en el H200 convencional
Nvidia se encuentra cómodamente en la parte superior de la cadena alimentaria de hardware de IA, dominando el mercado con sus GPU de alto rendimiento y una pila de software CUDA, que se han convertido rápidamente en las herramientas predeterminadas para capacitar y ejecutar grandes modelos de IA, pero ese dominio tiene un costo, a saber, un objetivo creciente en la espalda.
HyperScalers como Amazon, Google, Microsoft y Meta están vertiendo recursos para desarrollar su propio silicio personalizado en un esfuerzo por reducir su dependencia de los chips de Nvidia y reducir los costos. Al mismo tiempo, una ola de nuevas empresas de hardware de IA está tratando de capitalizar la creciente demanda de aceleradores especializados, con la esperanza de ofrecer alternativas más eficientes o asequibles y, en última instancia, desplazar a Nvidia.
Es posible que aún no haya oído hablar de Fractile con sede en el Reino Unido, pero la startup, que afirma que su enfoque revolucionario de la informática puede ejecutar los modelos de idiomas más grandes del mundo 100 veces más rápido y al 1/10 el costo de los sistemas existentes, tiene algunos patrocinadores bastante notables, incluidos la OTAN y el ex CEO de Intel, Pat Gelsinger.
Eliminar cada cuello de botella
“Estamos construyendo el hardware que eliminará cada cuello de botella con la inferencia más rápida posible de las redes de transformadores más grandes”, dice Fractile.
“Esto significa que los LLM más grandes del mundo se ejecutan más rápido de lo que puedes leer, y un universo de capacidades y posibilidades completamente nuevas de cómo trabajamos que se desbloqueará por la inferencia casi instantánea de modelos con inteligencia sobrehumana”.
Vale la pena señalar, antes de emocionarse demasiado, que los números de rendimiento de Fractile se basan en comparaciones con grupos de GPU NVIDIA H100 utilizando cuantización de 8 bits y Tensorrt-LLM, ejecutando Llama 2 70b, no los chips H200 más nuevos.
En una publicación de LinkedIn, Gelsinger, quien recientemente se unió a VC Firm Playground Global como socio general, escribió: “La inferencia de los modelos de IA fronteriza es un cuello de botella por hardware. Incluso antes de que la escala de cómputo de prueba, el costo y la latencia fueran grandes desafíos para las implementaciones de LLM a gran escala … para lograr nuestras aspiraciones para la IA, necesitaremos radicalmente más rápidos, bendecidos y de menor potencia infereron de potencia”. “”. “”. “”. “.
“Me complace compartir que recientemente he invertido en Fractile, una compañía de hardware de inteligencia artificial con fundamento del Reino Unido que está siguiendo un camino lo suficientemente radical como para ofrecer tal salto”, reveló.
“Su enfoque de cómputo en memoria de la aceleración de inferencia aborda conjuntamente los dos cuellos de botella a la inferencia de escala, superando tanto el cuello de botella de memoria que contiene las GPU de hoy, al tiempo que diezmando el consumo de energía, la mayor restricción física que enfrentamos en la próxima década en la capacidad de los centros de datos.