EMC: “No tenemos que amoldar el dato a la técnica de análisis, sino la técnica de análisis al dato”

Entrevista con César Tapias, responsable de Tecnologías Emergentes de EMC España, que desgrana el concepto de Business Data Lake y cómo debe ser la forma de trabajar con los grandes volúmenes de datos.

Uno de los fenómenos que más está transformando la forma de hacer negocios hoy en día, porque entre otras cosas permite a las empresa fundamentar mejor sus decisiones y buscar la rentabilidad, es el Big Data. Es decir, esa gran cantidad de datos que uno mismo va generando y también recibiendo por parte de diversas fuentes, y que hay que aprender a almacenar, analizar y poner en valor. Y que a su vez está dando lugar a términos nuevos, como el Business Data Lake que impulsan desde EMC. Sobre este concepto y otras cuestiones ha hablado nuestro director editorial, Pablo Fernández, con el responsable de Tecnologías Emergentes de EMC España, César Tapias, en una entrevista que reproducimos a continuación. Y en la que también ahondamos a lo largo de estas líneas.

Entrevista a César Tapias, responsable de Tecnologías Emergentes de EMC España

“Podríamos decir que un Data Lake es un repositorio de información en formato nativo”, define César Tapias, “que está preparado para interactuar con usuarios y aplicaciones para poder extraer lo más fácilmente [posible] valor de esa información”. Este directivo comenta que “el término lake nace para expresar la magnitud del problema al que nos enfrentamos” ahora mismo, ya “que realmente Big Data lo que propone es que todo contenido es importante hasta que se demuestre lo contrario. Y esto significa que cualquier información nos puede dar una perspectiva nueva sobre un problema para tratar de llegar a una conclusión”, desde la que procede de “datos internos” a la vinculada a “fuentes externas”. Porque al final habrá, dice Tapias, “un montón de fuentes diferentes y diferentes formatos”. Mientras, “business viene a proponer el fin”, que no es otro que “extraer valor de esa información. Ser capaz de analizarla y ser capaz de optimizar la forma en que hacemos las cosas” para “obtener una ventaja competitiva”.

A la hora de enfrentarse a los datos masivos, Tapias dice que hoy por hoy “el primer paso es asumir que no podemos hacer las cosas de igual manera. Tradicionalmente lo que solíamos hacer en un entorno de analíticas es preclasificar la información. En función de estereotipos, de prejuicios, o de experiencia, ya decidimos qué es importante y qué no es importante. Y luego” lo habitual sería pasar a “formatearlo para poder consumirlo”. Siendo conscientes de la cantidad de datos que los negocios manejan en la actualidad, “esto no es viable”, compara el responsable de Tecnologías Emergentes de EMC España, “y además no tiene sentido amoldar el dato o cambiar el dato, en función de la técnica de analítica”. Es más, “no tenemos que amoldar el dato a la técnica de análisis, sino la técnica de análisis al dato. Tenemos que tener en cuenta que a día de hoy el volumen de datos es exponencial, y el 80% de ese volumen es contenido no estructurado”, razona nuestro entrevistado.

Ahora se encauzarían los análisis hacia predicciones y “un plan de acción para mitigar el impacto de las cosas que van a pasar. Con lo cual, otra cosa que hay que tener en cuenta es la agilidad que necesitamos en estos entornos”, continúa César Tapias, que advierte de que muchas veces “el tiempo entre obtener un dato y extraer la información es crítico” por lo que “el entorno de analíticas tiene que ser parte de una infraestructura de IT, transaccional” y demás. Otras condiciones consisten en que sea “escalable” y que “dé acceso universal”, de tal modo que haya “comunicación de ese repositorio con cualquiera que quiera consumir el dato”. Teniendo en cuenta todas estas cosas y exponiendo que “hemos querido un poco poner nuestro grano de arena”, Tapias habla del Federation Business Data Lake de EMC como “la primera arquitectura open source para crear un data lake totalmente integrado”.

Según este directivo, “hemos seleccionado casos de uso por sector para saber qué tecnologías se aplican en función de cada caso de uso, y una vez tengamos las tecnologías claras, obviamente lo que hemos hecho es tratar de acelerar la implementación”. Además, destaca que se han constituido “workshops a medida” para quienes no tengan las ideas claras y no sepan “lo que es un Big Data o un Data Lake, para tratar de exponerle muchos casos de uso en función de su sector”. Por otra parte, Tapias apunta a la “ayuda al despliegue” con un portal “creado bajo las tecnologías de EMC, que lo que me permite es precisamente identificar las tecnologías con los casos de uso”. Es decir, “aporta esa flexibilidad para desplegar en días lo que antes se tardaba meses” y se dirige “directamente a la gente de negocio” de forma que “el departamento de IT es capaz de crear una infraestructura y es capaz de dársela a cada uno de los departamentos para que aplique al caso que les atañe a cada uno”.