Creador de Hadoop: “No pensé que industrias tradicionales iban a usar alguna vez este software. Fue una gran sorpresa”

Es difícil resumir la trayectoria de Doug Cutting. A lo largo de su vida profesional ha pasado por grandes nombres de la industria TIC como Xerox, Apple y Yahoo. Pero muy probablemente Cutting pase a la historia por ser el fundador de proyectos Open Source como Apache Lucene, Nutch, Avro y Hadoop. Desde hace casi 7 años es además el director de arquitectura en Cloudera.

En plena gira mundial con Hadoop, Cutting ha aprovechado un viaje en avión desde Asia para contestar a nuestras preguntas. Hablamos con él sobre el proyecto Open Source que crece en protagonismo en la medida que se asienta la revolución Big Data.

– Háblanos sobre los orígenes de Hadoop. ¿Por qué fue creado y cuáles fueron las necesidades que venía a satisfacer?

Estábamos trabajando en un problema (búsqueda web) para el que necesitábamos computación de datos escalable y distribuida. El software era un proyecto open source (Apache Nutch). Google publicó descripciones de métodos de computación distribuida mucho más superiores a los que estábamos usando con Nutch, así que los implementamos como open source dentro de Nutch. Más tarde, cuando descubrieron que estos eran útiles fuera de Nutch los separamos en un nuevo proyecto al que llamamos Hadoop (en relación al nombre que mi hijo se inventó para su elefante de peluche).

La razón por la que pensé que el proyecto podría tener éxito fue porque sentí que este tipo de tecnología podría ser útil para mucha gente, pero sólo pensaba en gente haciendo cosas que eran familiares para mí, como búsquedas web y el procesamiento del lenguaje natural. No pensé que gente en industrias tradicionales como banca, seguros, salud, producción, retail… iban a usar alguna vez este software. Fue una gran sorpresa.

– Sobre la adopción de Hadoop en la industria TI. Grandes compañías han adoptado/integrado Hadoop en sus ofertas. ¿Por qué? ¿Cuáles son los beneficios? ¿Cuál es el modelo de negocio?

Hadoop permite a las instituciones sacar valor de los datos de una forma que antes no podían. Puede almacenar y procesar mayores cantidades de datos y a costes mucho más reducidos. Provee un ecosistema más flexible, permite la exploración de datos, de forma que uno puede descubrir mejor qué aplicaciones merece la pena desplegar. Las aplicaciones [de negocio] van desde las de mejora del entendimiento de operaciones y clientes a la generación de nuevos productos de datos.

– ¿Nos podrías decir en pocas palabras cuales son los beneficios del open source para la industria TI?

El proceso Open Source crea software que no está controlado por vendedores, que en su lugar está controlado por sus usuarios. Esto le permite evolucionar y mejorar en formas que podrían no ser las mejores para fabricantes particulares pero que son las mejores para las aplicaciones del software. En los ecosistemas Open Source vemos una evolución mucho más rápida. Así que no es solo que el software sea más barato y que no tenga ataduras a vendedores, sino que ofrece funcionalidades mejores y más apropiadas.

– ¿Dónde ves a Hadoop en 5 años? ¿Y en 10? ¿Está este futuro unido a las necesidades de la empresa?

El ecosistema Hadoop es el núcleo de la plataforma TI de próxima generación. Es una mejora sobre la generación anterior en muchos sentidos. Es mucho más asequible y escala mucho más. Provee un abanico de herramientas más amplio y en expansión; no sólo SQL, sino también machine learning, búsquedas, stream-processing, etc. Soporta un ciclo de desarrollo exploratorio e iterativo incorporando diversos conjuntos de datos. Por último, con raíces Open Source, evoluciona mucho más rápido y en respuesta a las necesidades de los usuarios.

– ¿Qué se necesita para acelerar la adopción de Hadoop en la empresa?

La principal limitación de la adopción de Hadoop es la falta de aptitudes. La gente conoce sus industrias, y muchos tienen el conocimiento matemático y estadístico para entender cómo pueden aplicarse sus datos para mejorar sus negocios, pero no tienen conocimientos sobre las nuevas herramientas en el ecosistema Hadoop. Afortunadamente estas capacidades pueden aprenderse y vemos que en la medida que la gente está siendo formada con nuevos métodos, Hadoop está adoptándose más rápidamente en sus negocios.

– ¿Beneficiará IoT a la madurez de Hadoop -por el gran número de datos que genera?

Las organizaciones se están dando cuenta de que pueden mejorar sus negocios de forma más efectiva captando información. Prácticamente todas las instituciones interactúan hoy con el mundo digital y en el proceso generan información relevante. Para sobrevivir frente a competidores deben encontrar el valor en sus datos y el ecosistema de Hadoop es la mejor herramienta para hacerlo. Esta es la verdad en prácticamente todos los sectores: banca, seguros, salud, producción, retail, teleco, gobierno. IoT acelera estas industrias y fomenta la digitalización de estas industrias.

– Data Lakes, Data Warehouses y Contenedores… ¿qué es lo mejor?

En Cloudera preferimos hablar sobre Data Hub, el lugar no sólo para almacenamiento de datos, sino también para su procesamiento y análisis. Un Data Lake es solo un repositorio de almacenamiento. El Data Warehousing es una de muchas cosas que son posibles en un Data Hub. Los contenedores son útiles para agrupar software y representan una tecnología complementaria. El Data Hub ofrece una plataforma flexible para buscar y extraer valor de todos los diversos datos de una compañía.

Nerea Bilbao

Redactora Jefe. Tras pasar por la radio y la comunicación corporativa me quedé atrapada en la Red. Ahora escribo en Silicon sobre empresas tecnológicas y finanzas. Interesada por todo lo relacionado con el ciberpoder y la relación de las tecnologías con los centros de poder.

Recent Posts

Un 90% de los servicios de atención al cliente en España planean aumentar sus inversiones en IA este año

Salesforce ha presentado su informe State of Service, revelando que el 94% de los servicios…

3 horas ago

Las tarjetas virtuales, método de pago B2B de mayor crecimiento

Juniper Research espera que sus transacciones crezcan desde los 3 billones de dólares previstos para…

6 horas ago

Samsung cumple su previsión de resultados trimestrales

Durante el primer trimestre de 2024 ingresó cerca de 48.600 millones de euros y rebasó…

7 horas ago

QNAP lanza una aplicación que monitoriza la actividad inusual en archivos del NAS

Ahora Security Center incluye una función que ayuda a controlar el estado del sistema y…

7 horas ago

Visibilidad y seguridad de datos críticos en entornos híbridos

Analizar cómo es posible gestionar y proteger la información en el mundo ultra digital que…

8 horas ago

Javier Rillo asume la dirección financiera de Cuatroochenta

Entra en el equipo directivo de la tecnológica en sustitución de David Osuna. Su puesto…

8 horas ago