Creador de Hadoop: “No pensé que industrias tradicionales iban a usar alguna vez este software. Fue una gran sorpresa”

Doug Cutting cree el beneficio de Hadoop para las empresas es su capacidad de escalar a costes reducidos.

Es difícil resumir la trayectoria de Doug Cutting. A lo largo de su vida profesional ha pasado por grandes nombres de la industria TIC como Xerox, Apple y Yahoo. Pero muy probablemente Cutting pase a la historia por ser el fundador de proyectos Open Source como Apache Lucene, Nutch, Avro y Hadoop. Desde hace casi 7 años es además el director de arquitectura en Cloudera.

En plena gira mundial con Hadoop, Cutting ha aprovechado un viaje en avión desde Asia para contestar a nuestras preguntas. Hablamos con él sobre el proyecto Open Source que crece en protagonismo en la medida que se asienta la revolución Big Data.

– Háblanos sobre los orígenes de Hadoop. ¿Por qué fue creado y cuáles fueron las necesidades que venía a satisfacer?

Estábamos trabajando en un problema (búsqueda web) para el que necesitábamos computación de datos escalable y distribuida. El software era un proyecto open source (Apache Nutch). Google publicó descripciones de métodos de computación distribuida mucho más superiores a los que estábamos usando con Nutch, así que los implementamos como open source dentro de Nutch. Más tarde, cuando descubrieron que estos eran útiles fuera de Nutch los separamos en un nuevo proyecto al que llamamos Hadoop (en relación al nombre que mi hijo se inventó para su elefante de peluche).

La razón por la que pensé que el proyecto podría tener éxito fue porque sentí que este tipo de tecnología podría ser útil para mucha gente, pero sólo pensaba en gente haciendo cosas que eran familiares para mí, como búsquedas web y el procesamiento del lenguaje natural. No pensé que gente en industrias tradicionales como banca, seguros, salud, producción, retail… iban a usar alguna vez este software. Fue una gran sorpresa.

– Sobre la adopción de Hadoop en la industria TI. Grandes compañías han adoptado/integrado Hadoop en sus ofertas. ¿Por qué? ¿Cuáles son los beneficios? ¿Cuál es el modelo de negocio?

Hadoop permite a las instituciones sacar valor de los datos de una forma que antes no podían. Puede almacenar y procesar mayores cantidades de datos y a costes mucho más reducidos. Provee un ecosistema más flexible, permite la exploración de datos, de forma que uno puede descubrir mejor qué aplicaciones merece la pena desplegar. Las aplicaciones [de negocio] van desde las de mejora del entendimiento de operaciones y clientes a la generación de nuevos productos de datos.

– ¿Nos podrías decir en pocas palabras cuales son los beneficios del open source para la industria TI?

El proceso Open Source crea software que no está controlado por vendedores, que en su lugar está controlado por sus usuarios. Esto le permite evolucionar y mejorar en formas que podrían no ser las mejores para fabricantes particulares pero que son las mejores para las aplicaciones del software. En los ecosistemas Open Source vemos una evolución mucho más rápida. Así que no es solo que el software sea más barato y que no tenga ataduras a vendedores, sino que ofrece funcionalidades mejores y más apropiadas.

– ¿Dónde ves a Hadoop en 5 años? ¿Y en 10? ¿Está este futuro unido a las necesidades de la empresa?

El ecosistema Hadoop es el núcleo de la plataforma TI de próxima generación. Es una mejora sobre la generación anterior en muchos sentidos. Es mucho más asequible y escala mucho más. Provee un abanico de herramientas más amplio y en expansión; no sólo SQL, sino también machine learning, búsquedas, stream-processing, etc. Soporta un ciclo de desarrollo exploratorio e iterativo incorporando diversos conjuntos de datos. Por último, con raíces Open Source, evoluciona mucho más rápido y en respuesta a las necesidades de los usuarios.

– ¿Qué se necesita para acelerar la adopción de Hadoop en la empresa?

La principal limitación de la adopción de Hadoop es la falta de aptitudes. La gente conoce sus industrias, y muchos tienen el conocimiento matemático y estadístico para entender cómo pueden aplicarse sus datos para mejorar sus negocios, pero no tienen conocimientos sobre las nuevas herramientas en el ecosistema Hadoop. Afortunadamente estas capacidades pueden aprenderse y vemos que en la medida que la gente está siendo formada con nuevos métodos, Hadoop está adoptándose más rápidamente en sus negocios.

– ¿Beneficiará IoT a la madurez de Hadoop -por el gran número de datos que genera?

Las organizaciones se están dando cuenta de que pueden mejorar sus negocios de forma más efectiva captando información. Prácticamente todas las instituciones interactúan hoy con el mundo digital y en el proceso generan información relevante. Para sobrevivir frente a competidores deben encontrar el valor en sus datos y el ecosistema de Hadoop es la mejor herramienta para hacerlo. Esta es la verdad en prácticamente todos los sectores: banca, seguros, salud, producción, retail, teleco, gobierno. IoT acelera estas industrias y fomenta la digitalización de estas industrias.

– Data Lakes, Data Warehouses y Contenedores… ¿qué es lo mejor?

En Cloudera preferimos hablar sobre Data Hub, el lugar no sólo para almacenamiento de datos, sino también para su procesamiento y análisis. Un Data Lake es solo un repositorio de almacenamiento. El Data Warehousing es una de muchas cosas que son posibles en un Data Hub. Los contenedores son útiles para agrupar software y representan una tecnología complementaria. El Data Hub ofrece una plataforma flexible para buscar y extraer valor de todos los diversos datos de una compañía.