El CAPTCHA también sirve para digitalizar libros antiguos

Para muchos el CAPTCHA no es sino un engorroso sistema que utilizan los sitios web para filtrar spam (en nuestro blog tuvimos que quitarlo). Al parecer, se usan unos 200 millones de veces al día, con lo que, según los informáticos que trabajan en este proyecto, “la humanidad gasta unas 500.000 horas al día en escribir estas letras vailables”.

Luis von Ahn, de la Universidad Carnegie Mellon de Pittsburg, y su equipo de científicos, dicen que es un tiempo demasiado valioso como para perderlo de esa manera. Por eso han desarrollado un nuevo programa, el reCAPTCHA, que recoge las palabras que resultan ilegibles para los escáneres ópticos cuando están digitalizando los textos antiguos. Estas palabras, se envían después a los sitios Web que quieran cooperar con el proyecto para que las coloquen como CAPTCHAs aleatorios. Para las palabras más difíciles, se utilizan múltiples usuarios y se elige la que haya tenido mayor consenso. De esta forma se obtiene una precisión del 99 por ciento, según aseguran los responsables.

Este sistema reCAPTCHA recoge ya automáticamente unos 4 millones de respuestas cada día de 40.000 páginas web adheridas al proyecto, lo que equivale a 1.500 personas trabajando a tiempo completo para transcribir 60 palabras por minuto, explicó von Ahn.

El servicio está disponible en www.recaptcha.net, es gratuito para cualquier web que lo solicite. Después de un año de funcionamiento, ha ayudado a resolver unos 440 millones de palabras. Por ejemplo, el equipo de von Ahn ha digitalizado el archivo completo de periódicos de 1908 del New York Times ayudándose de este sistema.

vINQulos
Science