Llega el gran modelo lingüístico Fugaku-LLM

Investigadores de Fujitsu, CyberAgent, Kotoba Technologies, RIKEN, el Instituto Tecnológico de Tokio y las Universidades de Tohoku y Nagoya se han unido en torno a un proyecto conjunto: Fugaku-LLM.

Se trata de un gran modelo lingüístico con capacidad mejorada para el idioma japonés que ha sido entrenado utilizando el superordenador que le da nombre, Fugaku.

Sus creadores desarrollaron métodos de entrenamiento distribuido como la portabilidad del marco de aprendizaje profundo Megatron-DeepSpeed a Fugaku para optimizar el rendimiento de Transformers. También aceleraron la biblioteca de multiplicación de matrices densas para Transformers y la de comunicación colectiva en la interconexión D de Tofu, además de optar por distintas técnicas de paralelización.

Fugaku-LLM tiene 13 000 millones de parámetros, con una puntuación media de 5,5 en el MT-Bench japonés. El rendimiento de referencia para tareas de humanidades y ciencias sociales obtuvo 9,18 puntos.

Este gran modelo lingüístico ha aprovechado 380 000 millones de tokens empleando 13 824 nodos de Fugaku. Alrededor del 60 % de los datos de entrenamiento fueron japoneses y se combinaron con inglés, matemáticas y código.

Su código está disponible en GitHub y el modelo, en Hugging Face. Se permite su uso tanto con fines de investigación como comerciales, respetando la licencia. El objetivo es avanzar hacia “aplicaciones empresariales y de investigación innovadoras de próxima generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA”.

Redacción Silicon

La redacción de Silicon está compuesta por profesionales del periodismo 2.0

Recent Posts

La IA provoca una explosión de fraude en eCommerce

Entre 2024 y 2029, el valor del fraude en comercios electrónicos se disparará un 141…

3 horas ago

Silicon Podcast: IA-menazas… La cara menos amable de la Inteligencia Artificial

Conversamos con Iván Mateos, experto de Sophos, sobre los ciberataques más peligrosos que emplean inteligencia…

4 horas ago

Akamai lanza un conector entre API Security y Connected Cloud

Potencia el descubrimiento y la protección de las API, con respuesta rápida a ataques y…

4 horas ago

NetApp y Google Cloud amplían su alianza en almacenamiento de datos para la nube

NetApp anuncia la la integración de almacenamiento unificado de datos y servicios inteligentes en Google…

4 horas ago

Productividad, conciliación y otros beneficios de la IA en el trabajo

"En lugar de representar una amenaza, la IA permite a los empleados aprovechar sus grandes…

5 horas ago

Ayesa y RASC animan el debate sobre computación cuántica, IA y otros temas de actualidad

Organizan en Sevilla el ciclo de conferencias Horizontes, que arranca el 11 de octubre y…

6 horas ago