Creador de Hadoop: “No pensé que industrias tradicionales iban a usar alguna vez este software. Fue una gran sorpresa”

Es difícil resumir la trayectoria de Doug Cutting. A lo largo de su vida profesional ha pasado por grandes nombres de la industria TIC como Xerox, Apple y Yahoo. Pero muy probablemente Cutting pase a la historia por ser el fundador de proyectos Open Source como Apache Lucene, Nutch, Avro y Hadoop. Desde hace casi 7 años es además el director de arquitectura en Cloudera.

En plena gira mundial con Hadoop, Cutting ha aprovechado un viaje en avión desde Asia para contestar a nuestras preguntas. Hablamos con él sobre el proyecto Open Source que crece en protagonismo en la medida que se asienta la revolución Big Data.

– Háblanos sobre los orígenes de Hadoop. ¿Por qué fue creado y cuáles fueron las necesidades que venía a satisfacer?

Estábamos trabajando en un problema (búsqueda web) para el que necesitábamos computación de datos escalable y distribuida. El software era un proyecto open source (Apache Nutch). Google publicó descripciones de métodos de computación distribuida mucho más superiores a los que estábamos usando con Nutch, así que los implementamos como open source dentro de Nutch. Más tarde, cuando descubrieron que estos eran útiles fuera de Nutch los separamos en un nuevo proyecto al que llamamos Hadoop (en relación al nombre que mi hijo se inventó para su elefante de peluche).

La razón por la que pensé que el proyecto podría tener éxito fue porque sentí que este tipo de tecnología podría ser útil para mucha gente, pero sólo pensaba en gente haciendo cosas que eran familiares para mí, como búsquedas web y el procesamiento del lenguaje natural. No pensé que gente en industrias tradicionales como banca, seguros, salud, producción, retail… iban a usar alguna vez este software. Fue una gran sorpresa.

– Sobre la adopción de Hadoop en la industria TI. Grandes compañías han adoptado/integrado Hadoop en sus ofertas. ¿Por qué? ¿Cuáles son los beneficios? ¿Cuál es el modelo de negocio?

Hadoop permite a las instituciones sacar valor de los datos de una forma que antes no podían. Puede almacenar y procesar mayores cantidades de datos y a costes mucho más reducidos. Provee un ecosistema más flexible, permite la exploración de datos, de forma que uno puede descubrir mejor qué aplicaciones merece la pena desplegar. Las aplicaciones [de negocio] van desde las de mejora del entendimiento de operaciones y clientes a la generación de nuevos productos de datos.

– ¿Nos podrías decir en pocas palabras cuales son los beneficios del open source para la industria TI?

El proceso Open Source crea software que no está controlado por vendedores, que en su lugar está controlado por sus usuarios. Esto le permite evolucionar y mejorar en formas que podrían no ser las mejores para fabricantes particulares pero que son las mejores para las aplicaciones del software. En los ecosistemas Open Source vemos una evolución mucho más rápida. Así que no es solo que el software sea más barato y que no tenga ataduras a vendedores, sino que ofrece funcionalidades mejores y más apropiadas.

– ¿Dónde ves a Hadoop en 5 años? ¿Y en 10? ¿Está este futuro unido a las necesidades de la empresa?

El ecosistema Hadoop es el núcleo de la plataforma TI de próxima generación. Es una mejora sobre la generación anterior en muchos sentidos. Es mucho más asequible y escala mucho más. Provee un abanico de herramientas más amplio y en expansión; no sólo SQL, sino también machine learning, búsquedas, stream-processing, etc. Soporta un ciclo de desarrollo exploratorio e iterativo incorporando diversos conjuntos de datos. Por último, con raíces Open Source, evoluciona mucho más rápido y en respuesta a las necesidades de los usuarios.

– ¿Qué se necesita para acelerar la adopción de Hadoop en la empresa?

La principal limitación de la adopción de Hadoop es la falta de aptitudes. La gente conoce sus industrias, y muchos tienen el conocimiento matemático y estadístico para entender cómo pueden aplicarse sus datos para mejorar sus negocios, pero no tienen conocimientos sobre las nuevas herramientas en el ecosistema Hadoop. Afortunadamente estas capacidades pueden aprenderse y vemos que en la medida que la gente está siendo formada con nuevos métodos, Hadoop está adoptándose más rápidamente en sus negocios.

– ¿Beneficiará IoT a la madurez de Hadoop -por el gran número de datos que genera?

Las organizaciones se están dando cuenta de que pueden mejorar sus negocios de forma más efectiva captando información. Prácticamente todas las instituciones interactúan hoy con el mundo digital y en el proceso generan información relevante. Para sobrevivir frente a competidores deben encontrar el valor en sus datos y el ecosistema de Hadoop es la mejor herramienta para hacerlo. Esta es la verdad en prácticamente todos los sectores: banca, seguros, salud, producción, retail, teleco, gobierno. IoT acelera estas industrias y fomenta la digitalización de estas industrias.

– Data Lakes, Data Warehouses y Contenedores… ¿qué es lo mejor?

En Cloudera preferimos hablar sobre Data Hub, el lugar no sólo para almacenamiento de datos, sino también para su procesamiento y análisis. Un Data Lake es solo un repositorio de almacenamiento. El Data Warehousing es una de muchas cosas que son posibles en un Data Hub. Los contenedores son útiles para agrupar software y representan una tecnología complementaria. El Data Hub ofrece una plataforma flexible para buscar y extraer valor de todos los diversos datos de una compañía.

Nerea Bilbao

Redactora Jefe. Tras pasar por la radio y la comunicación corporativa me quedé atrapada en la Red. Ahora escribo en Silicon sobre empresas tecnológicas y finanzas. Interesada por todo lo relacionado con el ciberpoder y la relación de las tecnologías con los centros de poder.

Recent Posts

Silicon Pulse: Titulares de la semana #14 (2024)

Bienvenido a un nuevo episodio del podcast semanal Silicon Pulse, un espacio en el que…

9 horas ago

INCIBE documenta durante el último año más de 4 millones de dispositivos vulnerables

Durante 2023 su equipo de respuesta ante incidentes atendió un 24 % más de casos…

17 horas ago

Extreme Networks lanza un hub de la innovación en tecnologías de red

Extreme Labs ya ha dado su primer fruto: Extreme AI Expert, una solución que se…

18 horas ago

IBM aborda la oportunidad total de la nube con la compra de HashiCorp

Anuncia la adquisición de esta compañía por 6.400 millones de dólares coincidiendo con la publicación…

19 horas ago

Meta presenta los resultados del primer trimestre y actualiza previsiones

Sus ingresos han crecido un 27 % para acercarse a los 36.500 millones de dólares…

20 horas ago

Los ingresos trimestrales de Dassault Systèmes aumentan un 6 %

Durante el primer trimestre de 2024 acumuló 1.500 millones de euros, de los que 1.350…

20 horas ago