El proyecto de código abierto llm-d aborda la inferencia de IA generativa a gran escala

Red Hat anuncia esta iniciativa en alianza con CoreWeave, Google Cloud, IBM Research y NVIDIA. A la comunicad se suman otros representantes de la industria como AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI.

Red Hat, junto con CoreWeave, Google Cloud, IBM Research y NVIDIA en calidad de colaboradores fundadores, introduce un nuevo proyecto de código abierto.

Se trata de llm-d, que aborda la problemática de la inferencia de inteligencia artificial (IA) generativa a gran escala.

Una demanda creciente respecto a los recursos de modelos de razonamiento está entorpeciendo la viabilidad de la inferencia. Red Hat y sus socios proponen un proyecto para superar las limitaciones de un solo servidor y desbloquear la producción al apostar por vLLM.

La idea de este proyecto es que la IA generativa en producción logra alcanzar una omnipresencia similar a la de Linux.

Entre sus características, destaca por utilizar una arquitectura nativa de Kubernetes, enrutamiento de red con conciencia de IA e inferencia distribuida que se apoya en vLLM.

Los clústeres y controladores basados en Kubernetes están pensados para la programación de los recursos de cómputo y el almacenamiento, sosteniendo rendimiento y latencia.

El enrutamiento de red consciente de la inteligencia artificial permite programar solicitudes entrantes a servidores y aceleradores.

El servidor vLLM implica soporte para aceleradores y modelos emergentes. Esto incluye las unidades de procesamiento de tensor de Google Cloud.

“Al aprovechar la innovación de vLLM y las capacidades probadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador y en cualquier entorno de nube”, declara Brian Stevens, AI CTO en Red Hat, “contribuyendo así a materializar una visión de potencial ilimitado para la IA”.

Además, llm-d ofrece desagregación de prefill y decode, descarga de caché KV basada en LMCache y APIs de comunicación de alto rendimiento para transferir datos entre servidores, con soporte para NVIDIA Inference Xfer Library.

“El lanzamiento de la comunidad llm-d, apoyado por una vanguardia de líderes en IA, marca un momento decisivo para abordar la necesidad de inferencia de IA generativa escalable, un obstáculo fundamental que debe superarse para permitir una adopción más amplia de la IA empresarial”, comenta Stevens.

Entre los socios se encuentran AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI. La comunidad también recibe el apoyo de los fundadores del Sky Computing Lab de la Universidad de California y del LMCache Lab de la Universidad de Chicago.