Meta lanza Purple Llama para un desarrollo responsable de modelos abiertos de IA

Este proyecto colaborativo entregará diferentes herramientas y evaluaciones, con el objetivo final de reducir la utilidad que la inteligencia artificial tiene para los ciberdelincuentes.

La inteligencia artificial (IA) es una tecnología que se ha abierto hueco entre usuarios y empresas con rapidez por su capacidad para automatizar tareas y potenciar la creatividad. Pero también está siendo utilizada por los ciberdelincuentes para idear ataques más efectivos.

Por eso Meta, que participa en el mercado con su modelo de lenguaje Llama, ha decidido poner en marcha Purple Llama. Esto es, un proyecto con el que proporcionar herramientas y evaluaciones a los desarrolladores para que trabajen de forma responsable con los modelos abiertos de IA generativa.

Purple Llama arranca apoyado por un nutrido grupo de socios de la industria, como son AI Alliance, AMD, Anyscale, AWS, Bain, CloudFlare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI y Together.AI.

Su nombre surge de conceptos conocidos en el mundo de la ciberseguridad. “Creemos que para mitigar verdaderamente los desafíos que presenta la IA generativa, debemos adoptar posturas tanto de ataque (equipo rojo) como de defensa (equipo azul)“, explican desde Meta. Esto da como resultado el color morado y un proyecto con un “enfoque colaborativo para evaluar y mitigar los riesgos potenciales”.

Por un lado, Meta, ofrecerá una serie de benchmarks basados en estándares que permitirán cuantificar el riesgo de seguridad, evaluar la frecuencia con la que se realizan sugerencias de código inseguro por parte de la IA y dificultar la generación de ciberataques. Y, así, reducir la utilidad de los grandes modelos lenguaje para los atacantes.

Por otra parte, Purple Llama introduce el modelo Llama Guard, con el que incide en su objetivo de ayudar a los desarrolladores a no producir resultados potencialmente peligrosos. Esta solución ha sido entrenada con conjuntos de datos que se encuentran disponibles públicamente.