Tendencias 2012: Las tres ‘V’ de Big Data

Sin lugar a dudas, una de las tendencias clave para este 2012 será la administración de grandes volúmenes de datos pero, ¿cómo de grandes? Intentamos resolver la pregunta.

Todo el mundo ha hablado durante el año que acabamos de dejar sobre ‘Big Data’, una de las tendencias que más han crecido en los últimos meses. La consumerización de la tecnología, las redes sociales y la movilidad han sido los precursores de este concepto en el que se pretende incluir todos aquellos conjuntos de datos que, por su complejidad y volumen, van más allá de las bases de datos relacionales que han reinado durante años.

Grandes y pequeños fabricantes de software se han percatado de ello y la gran mayoría ya cuenta con alguna solución que de cobertura a esta gestión. Tanto a la hora de capturar los datos como de almacenarlos, organizarlos y, sobre todo, analizarlos.

Este último apartado, el del análisis, tal vez sea el más complejo de llevar a cabo ya que es necesario generar algoritmos que sean capaces de relacionar datos no estructurados de lo más variopinto. Facebook, por ejemplo, genera cada mes treinta mil millones de elementos de contenido, desde fotos y vídeos a comentarios o enlaces. Toda esa información ya puede ser procesada mediante este tipo de técnicas.

Pero para hacerlo correctamente es necesario atender a una definición más extensa de ‘Big Data’, algo que ha hecho Umesh Jain, de Software Magazine. Propone tres características principales, las tres ‘V’:

  • Volumen: Grandes volúmenes de datos, a partir de TeraBytes o incluso PetaBytes. Hay que tener en cuenta que lo que ahora nos parece mucha cantidad de información dentro de un par de años o tres será algo normal. Pronto accederemos a la era del ‘ZettaByte’.
  • Variedad: El concepto de Big Data también suele venir acompañado de diversos tipos de fuentes de datos, ya sean estructurados o no estructurados.
  • Velocidad: La frecuencia de las actualizaciones de estas grandes bases de datos también es un punto muy a tener en cuenta. Es por ello por lo que su procesamiento y posterior análisis también ha de realizarse prácticamente en tiempo real para poder mejorar la toma de decisiones en base a la información generada.

Para 2012 se espera que las soluciones capaces de mantener el control sobre estas tres características sean cada vez más. Un caso de éxito interesante es el del proyecto Hadoop, basado en código abierto y que ha sido adoptado por muchos fabricantes, incluidos IBM, Microsoft, Jaspersoft…, dentro de sus desarrollos y soluciones. De entre sus bondades destaca la eficacia con la que se almacena la información para su posterior procesamiento y reproducción de informes personalizados.

SAP y su tecnología HANA, capaz de transferir íntegramente los datos almacenados en disco directamente a la memoria de los servidores, también ha dado un importante paso hacia delante, sobre todo a la hora de obtener los resultados solicitados prácticamente en tiempo real. Lo que ahora se consigue en un par de segundos mediante esta arquitectura, antes requería de horas e incluso días. Con ello se mejora exponencialmente la toma de decisiones en las empresas y, por ende, la continuidad de los negocios.