LUMI (Large Unified Modern Infrastructure) es el nombre del centro de supercomputación más potente del continente europeo y quinto a nivel mundial, según la lista Top500 de junio de 2024. Está ubicado en la pequeña ciudad de Kajaani, en el centro de Finlandia y a algo menos de 600 kilómetros al norte de la capital finlandesa, Helsinki.
Silicon fue invitado a conocer de primera mano estas instalaciones y todos los detalles que han permitido a LUMI convertirse en un monstruo de la supercomputación, equiparable a la potencia conjunta de 1,5 millones de portátiles de última generación en el espacio que ocupan dos pistas de tenis. Hay que decir que se trata de una comparación bastante básica para que los lectores se puedan hacer una idea, porque lo cierto es que la magnitud de este centro no es fácil de asimilar.
LUMI es parte de la iniciativa EuroHPC JU (European High-Performance Computing Joint Undertaking), un esfuerzo conjunto de la Unión Europea, el CSC (Centro para la Ciencia Finlandesa) y varios estados miembros (en este caso Finlandia, Bélgica, Dinamarca, Estonia, Noruega, Polonia, República Checa, Suecia, Suiza, Paises Bajos e Islandia) para construir una infraestructura de supercomputación de clase mundial en Europa. El objetivo de EuroHPC es situar a Europa como un referente global en la carrera de la supercomputación, promoviendo el avance científico y la competitividad industrial.
Fue en 2019 cuando Finlandia fue seleccionada para albergar uno de los supercomputadores más avanzados de Europa dentro del proyecto EuroHPC. Kajaani fue elegida como el lugar ideal para el proyecto debido a sus ventajas geográficas y energéticas, como el clima frío, que ayuda a reducir los costes de refrigeración, y la disponibilidad de energía hidroeléctrica 100% renovable, lo que convierte a LUMI en uno de los supercomputadores más ecológicos del mundo. No en vano, esta ciudad está rodeada de lagos con diversas centrales hidroeléctricas que generan energía para toda la región.
La construcción (tal y como adelantamos en Silicon por aquel entonces) comenzó en 2020 en un edificio industrial que previamente había funcionado como fábrica de papel, pero que, debido a la globalización y bajos precios de esta industria en sudamérica, se vio obligada a cerrar en 2008. Poco después de su clausura, el edificio fue adoptado por el CSC para albergar su centro de datos, siendo el germen para la construcción de LUMI.
La instalación se completó en 2021 y LUMI comenzó a estar operativo a finales de ese año en su primera fase. En la actualidad, el centro de supercomputación se encuentra en su tercera fase de despliegue y a pleno rendimiento en múltiples aplicaciones, como veremos más adelante.
Durante nuestra visita al centro de supercomputación LUMI, tuvimos el placer de tener como guía de excepción a Pekka Manninen, director de LUMI Leadership Computing Facility. Se trata del máximo responsable en el diseño y construcción de estas instalaciones.
LUMI está construido bajo la arquitectura HPE Cray EX, un sistema especializado en computación de alto rendimiento.Su configuración está basada en GPUs y CPUs de AMD, el único fabricante que desarrolla ambas unidades para este tipo de cargas de trabajo. El propio Manninen explicaba que las GPUs AMD MI250X seleccionadas son únicas en su clase debido a la supremacía técnica y el rendimiento por vatio que proporcionan.
En concreto, la partición de GPU (LUMI-G) consta de 2.978 nodos, cada uno de ellos con una CPU AMD Trento de 64 núcleos y cuatro GPUs AMD MI250X, lo que se traduce en un total de 11.912 GPUs de AMD.
Por su parte, la partición de CPU (LUMI-C) cuenta con 2.048 nodos de CPU de doble socket con chips AMD EPYC de tercera generación de 64 núcleos y entre 256GB y 1024 GB de memoria. En total, más de 262.000 núcleos de CPU.
El sistema cuenta con una partición adicional de memoria de 32TB. En el apartado de almacenamiento, LUMI consta de distintos niveles en función de las cargas de trabajo. Así, nos encontramos con 10 PB de almacenamiento Flash para un acceso rápido a corto plazo, 80 PB de almacenamiento en disco duro tradicional de más largo plazo y 30 PB para compartir datos y almacenarlos durante la vida útil de cada proyecto.
Todas las particiones (CPU, GPU y almacenamiento) están conectadas a través de conexiones Cray Slingshot de 200 Gbit/s.
Estas y otras especificaciones (su configuración es mucho más compleja de lo que acabamos de reflejar), han permitido situar a LUMI en ese quinto lugar mundial en la lista TOP500, con una velocidad sostenida de 379,70 PFlops/s y capaz de llegar a picos de 531,51 PFlops/s.
Como bien sabrán nuestros lectores la medida Flop/s hace referencia a las Operaciones en Coma Flotante por Segundo que un computador es capaz de realizar. Dicha medida se ha convertido en la referencia para medir el rendimiento de los sistemas de computación de alto rendimiento. Hemos ido viendo pasar el GigaFLOPS (GFlop/s), el TeraFLOPS (TFlop/s), el PetaFLOPS (PFlop/s) y ya existen los supercomputadores que han roto la barrera del ExaFLOPS (EFlop/s). En el caso que nos ocupa, LUMI es capaz de llevar a cabo más de 379 PFlops/s, o lo que es lo mismo: 379 cuatrillones de Operaciones en Coma Flotante por Segundo de forma sostenida.
Este tipo de centros de supercomputación están diseñados para resolver los cálculos más complejos y de mayor envergadura a los que el ser humano se enfrenta. En espera de que la computación cuántica se haga realidad, la computación de alto rendimiento está avanzando notoriamente en múltiples campos como la investigación científica, la salud y biomedicina, los gemelos digitales o la inteligencia artificial y el aprendizaje de máquina.
Y LUMI no es una excepción. Está diseñado para ayudar en la resolución de los problemas más complejos de la ciencia moderna: los investigadores pueden realizar simulaciones climáticas a gran escala, modelar el comportamiento de partículas subatómicas y explorar nuevas fronteras en la física teórica. También permite modelar interacciones moleculares y realizar simulaciones que aceleran el descubrimiento de medicamentos, así como la detección precoz del cáncer y tratamientos más eficientes para reducir su tasa de mortalidad.
Por ejemplo, durante la pandemia de COVID-19, LUMI jugó un papel importante en la modelización de la propagación del virus y en la investigación sobre posibles tratamientos.
Más recientemente, la compañía ICEYE utiliza la capacidad de cómputo de LUMI para analizar en tiempo real los datos generados por radar procedentes de su sistema de microsatélites y convertirlos en imágenes del terreno explorado, lo que permite detectar incendios, inundaciones o cualquier otro desastre medioambiental de forma independiente a las condiciones meteorológicas para obtener dicha información.
Destination Earth Climate Adaption Digital Twin es un caso de uso especialmente relevante que se está ejecutando ya en el centro de supercomputación. Básicamente, se trata de un nuevo tipo de sistema de información sobre el clima que puede utilizarse para evaluar los efectos del cambio climático y las distintas estrategias de adaptación a escala local y regional a lo largo de varias décadas. Es un gemelo digital de la tierra en el que se simulan y analizan todo tipo de circunstancias y artefactos con una resolución sin precedentes, lo que permitirá adelantarse a prácticamente cualquier tipo de catástrofe natural.
Otros casos de uso de LUMI que pudimos conocer durante la visita al centro están muy relacionados con la inteligencia artificial, como el desarrollo de un modelo de lenguaje grande y abierto para la comunidad científica, denominado OLMo. Gracias a que es un modelo abierto, científicos de cualquier lugar del mundo pueden colaborar y extraer el potencial de un modelo de lenguaje que ya cuenta con 70.000 millones de parámetros desde su primera versión lanzada a principios de este mismo año.
Como adelantaba en líneas anteriores, el CSC de Finlandia es la organización responsable del mantenimiento, la refrigeración y las actualizaciones del supercomputador LUMI, pero también tiene funciones de facilitador de la investigación científica y cualquier otro uso que se le pueda dar. Como institución científica que es, el CSC tiene como objetivo facilitar su uso a investigadores, instituciones académicas y empresas de los países mencionados.
De esta forma, el CSC asegura que LUMI esté disponible para proyectos de diversa índole como los comentados y otras disciplinas que requieran capacidades de computación de alto rendimiento.
Este proceso se realiza mediante solicitudes competitivas, donde se seleccionan los proyectos más prometedores que pueden beneficiarse del uso del supercomputador.
Más aún, entre las funciones del CSC se encuentran las de proporcionar soporte técnico a los investigadores, ayudándoles a aprovechar al máximo la potencia de cálculo de LUMI.
Durante los últimos dos o tres años, especialmente desde que ChatGPT irrumpiera en nuestras vidas como el sistema de IA generativa más popular, no hemos dejado de hablar y escribir sobre la inteligencia artificial. Todo el ecosistema de TI, desde fabricantes a desarrolladores de software independientes, pasando por integradores y distribuidores, se ha subido sin dudarlo a este tren y, como consecuencia de ello, se está desarrollando tecnología a su alrededor que está cambiando la vida de millones de personas, de la misma forma que lo hicieron los smartphones a finales de la primera década del siglo XXI.
Pero la inteligencia artificial no es algo nuevo. Se lleva trabajando en ello desde hace varias décadas, lo que ocurre ahora es que esos complejos algoritmos y modelos de lenguaje grande que requieren altas dosis de capacidad de cómputo se pueden ejecutar gracias a la nube y a centros de supercomputación como el que nos ocupa en esta crónica.
En todos estos sistemas capaces de procesar IA basada en ingentes cantidades de información y algoritmos, el denominador común son los subsistemas gráficos, las GPUs, así como los soportes para gestionar eficientemente todos esos procesos y resolver las peticiones de entrada y salida típicas de la IA generativa: las CPUs.
Si bien es cierto que el fabricante NVIDIA se ha convertido en un referente para la industria gracias a las capacidades que ofrecen sus GPUs a la hora de procesar este tipo de cargas de trabajo basadas en IA, AMD no se está quedando atrás en esta particular contienda.
Entre las bazas de AMD se encuentran la capacidad de diseñar y suministrar ambos componentes (GPUs y CPUs), su eficiencia por vatio consumido y su estrategia para desarrollar y apoyar un ecosistema de software abierto a través de AMD ROCm, que permite a los desarrolladores optimizar las cargas de trabajo de IA y HPC en las GPUs de AMD.
De ello nos hablaba Alexander Troshin, director de Marketing de Producto para Empresas y HPC de AMD en EMEA, durante nuestra visita al centro: “En las áreas de IA y Computación de Alto Rendimiento es necesario pensar en todos los elementos como un conjunto y no por separado. Desarrollar GPUs y CPUs y utilizar un ecosistema abierto para poder sacar el máximo rendimiento y eficiencia es fundamental para tener éxito en estos proyectos tan complejos”.
El resultado de esta estrategia de AMD facilita enormemente implementaciones de IA versátiles y eficientes, tanto a nivel de aprendizaje de máquina como de inferencia, las dos principales tareas en estas cargas de trabajo. No lo dice solamente AMD, sino la propia organización TOP500, donde dos de los cinco supercomputadores más potentes a nivel mundial están construidos con tecnología de AMD. El quinto es LUMI, tal y como hemos recalcado en estas líneas, mientras que el primero de esta lista, el sistema Frontier, fue el primero en romper la barrera del ExaFLOP (1,2 EFlop/s), todo un hito en la historia de la supercomputación.
Y todo esto no ha hecho más que empezar. Durante los próximos meses veremos combinaciones que romperán nuevas barreras gracias a la combinación de la 5ª generación de CPUs AMD EPYC, las GPUs AMD Instinct MI350 (previstas para 2025) y la conectividad para entornos de HPC UALink y Ultra Ethernet.
Aúnan la arquitectura NetApp AIPod con ONTAP y la consola de control unificado BlueXP con…
ZenScreen Smart MS27UC luce panel IPS 4K de 27 pulgadas y dispone de dos altavoces…
Otra de sus características es la incorporación de voz, vídeo, mensajería y conferencias en una…
Ubicados en Miami y Atlanta, le permitirán reforzar sus capacidades tanto para el país norteamericano…
Entre sus objetivos se encuentran mejorar los procesos operativos y de entrega de servicios, así…
Asume el cargo de Senior Manager para el Sector Público en España.