Google puede clasificar un PB de información en seis horas

Para poner esta cifra en perspectiva, es 12 veces los datos web archivados por la biblioteca del congreso estadounidense. Para el almacenamiento se utilizaron 48.000 discos duros y para asegurar la integridad de los datos se escribieron tres copias de cada archivo en tres discos diferentes.

El responsable de todo el sistema es la arquitectura de software MapReduce, un framework desarrollado por Google para soportar computación paralela en la inmensa cantidad de datos que mueven los distintos servicios de la compañía, desde el procesado de las imágenes por satélites o el análisis de páginas.

MapReduce procesaba en enero de 2008, un promedio de 20 petabytes de datos diarios.

vINQulos

Google Blog, vía Slashdot