NVIDIA Blackwell establece un nuevo estándar para la IA generativa con la inferencia MLPerf

Geekzillo, NVIDIA Blackwell establece un nuevo estándar para la IA generativa con el debut de la inferencia MLPerf. La primera aplicación que utiliza la GPU NVIDIA Blackwell multiplica por 4 el rendimiento de Llama 2 70B y la arquitectura Hopper de NVIDIA genera grandes ganancias en las pruebas de IA del sector. Conoce todos los detalles sobre esta innovación.

A medida que las empresas se apresuran a adoptar la IA generativa y lanzar nuevos servicios al mercado, las exigencias a la infraestructura de los centros de datos nunca han sido mayores. Entrenar grandes modelos de lenguaje (LLM) es un reto, pero ofrecer servicios en tiempo real basados en LLM es otro.

En la última ronda de pruebas de MLPerf, Inference v4.1, las plataformas NVIDIA ofrecieron el mejor rendimiento en todas las pruebas de centros de datos. La primera presentación de la próxima plataforma NVIDIA Blackwell reveló hasta 4 veces más rendimiento que la GPU NVIDIA H100 Tensor Core en la mayor carga de trabajo LLM de MLPerf, Llama 2 70B, gracias al uso de un Transformer Engine de segunda generación y FP4 Tensor Cores.

La NVIDIA H200 Tensor Core GPU ha obtenido resultados extraordinarios en todas las pruebas de la categoría de centros de datos, incluida la última incorporación a la prueba, el Mixtral 8x7B mixture of experts (MoE) LLM, que incluye un total de 46.700 millones de parámetros, con 12.900 millones de parámetros activos por token.

Los modelos MoE han ganado popularidad como una forma de aportar más versatilidad a los despliegues LLM, ya que son capaces de responder a una amplia variedad de preguntas y realizar tareas más diversas en un único despliegue. También son más eficientes, ya que sólo activan a unos pocos expertos por inferencia, lo que significa que ofrecen resultados mucho más rápidamente que los modelos densos de tamaño similar.

También te puede interesar: NVIDIA presentará innovaciones de rendimiento y la eficiencia energética de los centros de datos

El continuo crecimiento de los LLMs está impulsando la necesidad de más computación para procesar las solicitudes de inferencia. Para satisfacer los requisitos de latencia en tiempo real de los LLM actuales y hacerlo para el mayor número posible de usuarios, es imprescindible el cálculo multi-GPU. NVIDIA NVLink y NVSwitch proporcionan comunicación de gran ancho de banda entre GPUs basadas en la arquitectura Hopper de NVIDIA y aportan importantes ventajas para la inferencia de grandes modelos en tiempo real y de forma rentable. La plataforma Blackwell ampliará aún más la capacidad de NVLink Switch con dominios NVLink más grandes con 72 GPUs.

Además de las propuestas de NVIDIA, 10 partners de la compañía – ASUSTek, Cisco, Dell Technologies, Fujitsu, Giga Computing, Hewlett Packard Enterprise (HPE), Juniper Networks, Lenovo, Quanta Cloud Technology y Supermicro – han presentado sólidas sugerencias de MLPerf Inference, lo que pone de manifiesto la amplia disponibilidad de las plataformas NVIDIA.

“Estamos muy satisfechos de obtener este excelente resultado en MLPerf, que demuestra que las plataformas NVIDIA ofrecen un rendimiento líder en todos los sectores de los centros de datos. Esto contribuye significativamente a seguir reforzando nuestra posición en este escenario, así como a hacer más eficiente el trabajo de las empresas”, celebra Marcio Aguiar, director de la división Enterprise de NVIDIA para Latinoamérica.

Innovación incesante del software

Las plataformas NVIDIA se someten a un proceso continuo de desarrollo de software, lo que se traduce en mejoras mensuales de rendimiento y funcionalidad.

En la última ronda de inferencia, las ofertas de NVIDIA, que incluyen la arquitectura NVIDIA Hopper, la plataforma NVIDIA Jetson y el servidor de inferencia NVIDIA Triton. Experimentaron aumentos de rendimiento a pasos agigantados.

La GPU NVIDIA H200 proporcionó hasta un 27% más de rendimiento en inferencia generativa de IA que la ronda anterior. Lo que subraya el valor añadido que los clientes obtienen con el tiempo de su inversión en la plataforma NVIDIA.

Triton Inference Server, parte de la plataforma de IA de NVIDIA y disponible con el software NVIDIA AI Enterprise, es un servidor de inferencia de código abierto con todas las funciones. Que ayuda a las organizaciones a consolidar los servidores de inferencia específicos de cada marco de trabajo en una única plataforma unificada. Esto ayuda a reducir el coste total de propiedad de los modelos de IA en producción. Y acorta el tiempo de implantación de los modelos de meses a minutos.

En esta ronda de MLPerf, el servidor de inferencia Triton ofreció un rendimiento casi igual al de los modelos bare-metal de NVIDIA. Lo que demuestra que las empresas ya no tienen que elegir entre utilizar un servidor de inferencia de IA de alta calidad. Esto para producción o alcanzar el máximo rendimiento.

Hacia el Edge

Los modelos de IA generativa desplegados en el perímetro pueden transformar los datos de sensores. Como imágenes y vídeos, en información procesable en tiempo real y con gran conocimiento del contexto. La plataforma NVIDIA Jetson para inteligencia artificial y robótica en los edges es la única capaz de ejecutar localmente cualquier tipo de modelo, incluidos los LLM, los transformadores de visión y Stable Diffusion.

En esta ronda de pruebas MLPerf, los módulos sobre sistema NVIDIA Jetson AGX Orin lograron una mejora del rendimiento de 6,2 veces. Y una mejora de la latencia de 2,4 veces con respecto a la ronda anterior en la carga de trabajo GPT-J LLM. En lugar de desarrollar para un caso de uso específico, los desarrolladores ahora pueden utilizar este modelo de uso general de 6.000 millones de parámetros. Esto para interactuar sin problemas con el lenguaje humano, transformando la IA generativa en el perímetro.

Liderazgo en rendimiento en todas partes

Esta ronda de MLPerf Inference demostró la versatilidad y el rendimiento líder de las plataformas NVIDIA, que se extienden desde el centro de datos hasta el perímetro. Esto en todas las cargas de trabajo de la prueba, lo que potencia las aplicaciones y los servicios más innovadores basados en IA. Para obtener más información sobre estos resultados, consulte nuestro blog técnico.

Los sistemas dotados de GPU H200 ya están disponibles a través de CoreWeave -el primer proveedor de servicios en la nube que anuncia su disponibilidad general. Y los fabricantes de servidores ASUS, Dell Technologies, HPE, QTC y Supermicro.

También te puede interesar: NVIDIA NIM Agent Blueprints impulsará la IA generativa empresarial

Y tú, geekzillo, ¿qué opinas que NVIDIA Blackwell establece un nuevo estándar para la IA generativa con la inferencia MLPerf? No olvides que puedes compartirnos tus opiniones en los comentarios.

Por último, puedes seguir la pista de esta y más noticias en T3 Latam, TechRadar México. Además de nuestros podcasts con Oye 89.7: Top Techy Top Gaming en Spotify.