Google puede clasificar un PB de información en seis horas

Datos y Almacenamiento

La capacidad del gigante de Internet no deja de sorprendernos, esta vez con el anuncio de un experimento que ordenó 1.024 terabytes de datos en seis horas y dos minutos utilizando 4.000 ordenadores.

Para poner esta cifra en perspectiva, es 12 veces los datos web archivados por la biblioteca del congreso estadounidense. Para el almacenamiento se utilizaron 48.000 discos duros y para asegurar la integridad de los datos se escribieron tres copias de cada archivo en tres discos diferentes.

El responsable de todo el sistema es la arquitectura de software MapReduce, un framework desarrollado por Google para soportar computación paralela en la inmensa cantidad de datos que mueven los distintos servicios de la compañía, desde el procesado de las imágenes por satélites o el análisis de páginas.

MapReduce procesaba en enero de 2008, un promedio de 20 petabytes de datos diarios.

vINQulos

Google Blog, vía Slashdot

Leer la biografía del autor  Ocultar la biografía del autor