reCaptcha, digitalizando los libros

El sistema de reCaptcha seguramente lo han usado más de una vez al llenar algún formulario o tal vez para bajar algún contenido en línea. Pero, ¿sabían que este sistema tiene otro objetivo que solo identificar humanos?

021_Robot_Tattoo

Los sistemas captcha tienen, a primera instancia, un objetivo principal: identificar un ser humano de una computadora o un robot. Los captchas son imágenes muchas veces distorsionadas que usualmente solo los seres humanos podemos interpretar como letras.

El sistema de reCaptcha, que por cierto es de Google ¿qué no es de Google estos días en la red?, no solo tiene ese objetivo, si no también busca usar la “inteligencia colectiva” de los seres humanos para digitalizar libros.

¿Cómo funciona?

reCaptcha presentará 2 palabras siempre, una palabra de control  y una segunda palabra que es el desafía para el sistema. La primera palabra, el sistema la conoce, la segunda palabra, el sistema no la reconoce por completo.

recaptcha

¿Para qué sirve?

Supongamos que Google quiere digitalizar una edición muy vieja del New York Times. Primero, pondría a gente para escanear estos periódicos, y después correría un software OCR (Reconocimiento óptico de caracteres) para tratar de identificar lo que dice y convertirlo a un texto en la computadora.

Muchas veces los documentos escaneados son de mala calidad de impresión y tienen palabras irreconocibles para el sistema…

ocr_original

Lo que hace el sistema de reCaptcha es que en combinación con el software OCR, marca las palabras que no entiende bien lo que dice y se las da a los humanos para que las interprete:

ocr_transcripto_thumb

El sistema le presenta una misma imagen a miles de humanos para que lo interprete…

douglas_thumb

Después de muchas confirmaciones, el sistema identifica por ejemplo la palabra anterior como “DOUGLAS" y una coma.

El sistema es 99.5% confiable y efectivo. La mano de obra de identificar la palabra es gratis y el resultado increíble:

ocr_captcha

En el mundo, aproximadamente 200 millones de Captchas son resueltos cada día. En este caso, cada ser humano gasta aproximadamente 10 segundos en la solución a este “acertijo informático”, significa que se consumen 150,000 horas de trabajo cada día en resolver estos acertijos – con el fin principal de evitar el SPAM. Ahora reCaptcha le ha sacado provecho a este tiempo.

…aunque siempre puede fallar algocaptcha_imposible

Si quieren leer más acerca de reCaptcha, pueden ver este PDF (en inglés), muy recomendado.

via Alt-tab

Captcha imposible también de Alt-Tab

comic via MyApokalips.com