Textos Captcha ajudam a decifrar livros antigos!

ReCaptcha

Certamente o usuário já deve ter se deparado com um Captcha para confirmar uma operação, um cadastro ou um serviço via internet.
O conceito, basicamente, visa inviabilizar que robôs atuem de maneira indiscriminada no ambiente virtual.
Criado no ano 2.000 pelo guatemalteco Luis Von Ahn, professor de ciência da computação na Universidade Carnegie Mellon, os Captchas forçam o usuário a interpretar palavras distorcidas, as quais não conseguem ser "compreendidas" automaticamente pelos softwares de OCR.

Ao longo de anos pesquisadores vêm digitalizando livros antigos e interpretando seus textos através de softwares de OCR, permitindo que seus textos sejam indexados, traduzidos e, sobretudo, reduzidos a arquivos textuais, muito mais leves que imagens digitalizadas.
Entretanto, há casos onde as palavras são "lidas" de maneira errada. Como no exemplo abaixo:

Exemplo de OCR

É nesse momento que o usuário acaba prestando um enorme serviço à humanidade!
Palavras mal interpretadas são inseridas no banco da ReCaptcha e apresentadas ao usuário para que humanos as interpretem.
A contraprova ocorre quando o software apresenta duas palavras ao usuário, sendo uma conhecida e outra "complicada". Quando o humano acerta a palavra conhecida, dá aval à ReCaptcha de que sua interpretação da outra é parcialmente confiável.
Após apresentar a palavra "complicada" para diversos usuários e obter interpretações coincidentes, a ReCaptcha identifica que chegou à leitura correta!

Agora, sabendo que os textos Captcha estão contribuindo para a preservação da cultura da humanidade, já podemos ter um pouco mais de paciência quando uma palavra incompreensível aparece diante de nós, não?

Fontes:
Digitizing Books One Word at a Time
Telling Humans and Computers Apart Automatically
Verbete: Luis von Ahn na Wikipedia
Verbete: CAPTCHA na Wikipedia

Visite Sinco.net

Nenhum comentário:

Postar um comentário