Inteligencia Artificial y Machine Learning en gestión de datos: patrones, metapatrones y combustible barato

Miguel Reyes, vicepresidente de Information Builders para EMEA Sur y Latinoamérica, nos habla en esta tribuna del auge de la IA gracias a la nube y los grandes volúmenes de datos que se pueden manejar desde ahí.

Sabemos que la inteligencia artificial (IA) y el machine learning (ML) son importantes en ciertos casos, como a la hora de detectar patrones entre una montaña de datos (petabytes o incluso zetabytes) que, para un humano, llevaría una increíble cantidad de tiempo encontrar. Es, sencillamente, una carga cognitiva demasiado grande para que las personas puedan manejarla en un tiempo razonable y de forma consistente y precisa.

Cuando aplicamos inteligencia artificial a la calidad de los datos por primera vez, podemos utilizarla para detectar patrones en los datos que estamos corrigiendo. Así entrenamos la IA, que registra cómo nosotros arreglamos los distintos errores. Con el tiempo, esta IA podrá detectar patrones en el tipo de correcciones que hacemos. Es decir, podrá ver patrones en los patrones de los datos que nosotros corregimos (podemos llamarlos metapatrones). Como la ortografía, por ejemplo: el nombre Jon puede ser confundido con John dependiendo de la localización y llevar o no la ‘h’ final. Una IA puede, en teoría, aprender a deletrear lo suficientemente bien como para darse cuenta (y hacernos ver) de combinaciones de letras extrañas, o incluso para, a veces, corregir estos errores de manera silenciosa. Tener éxito utilizando una IA para la calidad de datos depende de tener claro qué queremos de ella. Así, cuando el software de calidad de datos detecta patrones (en España, Jon será siempre sin ‘h’, mientras que en Reino Unido siempre la llevará) puede mostrárnoslos para asegurarse de que correcciones específicas que hemos realizado anteriormente han sido bien modificadas, o incluso corregirlas por sí misma de forma silenciosa. Cuando ese mismo software ve metapatrones, puede mostrarnos cosas que nunca antes ha visto, y que nosotros podríamos no haber visto tampoco: estaría identificando potenciales nuevas reglas para nosotros.

Estos patrones y metapatrones no necesariamente tienen que estar limitados a un único campo o registro. De hecho, es de vital importancia que la IA reciba más información y detecte relaciones entre diversos campos mientras trabaja en la calidad de los datos para que pueda funcionar aún mejor. Por ejemplo, puede que nosotros no corrijamos nombres y apellidos si el apellido empieza por Abd-, porque quizá no estamos familiarizados con la gramática árabe. Eso no significa que los datos estén bien, puede que haya errores, y darnos cuenta de ello (un patrón) nos podría indicar que debemos contratar a algún nativo árabe para aumentar nuestras capacidades (y eso, además, ayudará a nuestra IA a aprender).

La IA no entiende las diferencias culturales humanas, solo detecta los patrones. Mientras los aprende necesita que un humano los revise, hasta que poco a poco la intervención humana se hace menos necesaria. Esto nos lleva a las distintas formas en que la IA, incluyendo machine learning, puede ser utilizada en cualquier problema:

Dirigida por humanos, asistida por máquinas: Es cuando el humano está haciendo correcciones o aplicando reglas y la IA ofrece soluciones (analítica aumentada)
Dirigida por máquinas, guiada por humanos: La máquina hace correcciones o aplica reglas y la IA muestra solo las excepciones o casos ambiguos al humano.
Dirigida por máquinas y guiada por máquinas: Aquí la máquina hace las correcciones y aplica reglas. Gracias al autoaprendizaje del software, se necesita poca o ninguna supervisión por parte de humanos (aunque deberán realizar controles de calidad ocasionalmente).

Las tres podrían darse al mismo tiempo sobre el mismo conjunto de datos: los datos más difíciles (nombres) pueden ser chequeados por personas, mientras que los datos más simples (direcciones) pueden ser revisados de forma completamente automática.

El objetivo final sería conseguir el modelo dirigido por máquinas y guiado por máquinas para las tareas más triviales; y el dirigido por máquinas y guiado por humanos para las más complicadas. No decimos que sea fácil, es un camino lento que requiere de mucha supervisión inicial hasta que se demuestra su efectividad y se confirma que está alineado con los objetivos corporativos.

Y sí, son ideas que ya llevamos bastante tiempo oyendo -llevamos hablando de ello desde los años 80-. ¿Por qué, entonces, no hemos avanzado al respecto y pensamos que podemos hacerlo ahora? La diferencia está en la ‘gasolina barata’. Henry Ford empezó a cambiar el mundo con su cadena de montaje, pero el uso de los coches no se convirtió en algo común hasta que se abarató lo suficiente el combustible (ahora estamos en una situación similar con los vehículos eléctricos).

Igualmente, es cierto que los métodos e ideas tras la IA y el machine learning han estado ahí desde hace décadas, pero es ahora, finalmente, cuando tenemos la capacidad informática adecuada (ubicua, barata y escalable) gracias al Big Data y a la nube.