Palavrinhas para digitalizar livros

Em Como usar a Internet por Alex Benfica

Aquelas palavrinhas que geralmente temos que digitar em sites de download para provar que somos humanos podem ter um propósito maior. O Google adquiriu uma empresa e incorporou à sua base de produtos o ReCaptcha.

O que é o ReCaptcha?

Estas palavrinhas ou números que digitamos se chamam “captcha”. O ReCaptcha tem uma diferença dos demais: cada vez que você passa no teste, está ajudando a digitalizar uma palavra de um livro ou jornal que esteja sendo digitalizado.

Por melhores que sejam os sistemas de OCR (reconhecimento óptico de caracteres), nenhum deles se aproxima da perfeição quando a imagem em que está o texto digitalizado tem uma má qualidade.  Ao escanear livros e jornais antigos, nem sempre é possível criar uma imagem de qualidade e os sistemas de reconhecimento acabam por não conseguir entender as palavras, como na imagem abaixo.

Leia também

Erros de detecção de palavras pelo OCR

Esse é o OCR errando na hora de interpretar algumas palavras, porque estão um pouco borradas. (Foto: Google)

Digitalização de palavras

Quando ocorrem casos como das palavras grifadas acima (e isto é muito comum), o Google guarda as imagens de cada palavrinha e coloca na caixinha de texto do ReCaptcha para você identificar. Qualquer um pode colocar o ReCaptcha em seu site e ajudar no reconhecimento de palavras para digitalização de livros.

Recaptcha para usar no seu site

Através do ReCaptcha, o computador é ajudado por quem estiver interpretando as palavras e, ao mesmo tempo, aprende como “ler” as palavras melhor. (Foto: Google)

Note que aparecem duas palavras acima. Uma delas já é conhecida e a outra você terá que digitar. Caso você acerte a que já é conhecida, o algoritmo irá entender que você é humano e possivelmente acertou a outra palavra também. Aí, quando várias pessoas reconhecerem a palavra da mesma forma, ela será usada para compor o texto de onde foi retirada, ajudando a digitalizar um livro ou jornal.

Ideia inteligente, não acha? Você conhece muitos sites que usam o ReCaptcha? Conhece alguma maneira melhor de chegar se um visitante é humano? Como você faz para seu site ficar menos vulnerável à robôs de spam?

Sobre o autor

Autor Alex Benfica

Profissional de TI com mais de 20 anos de experiência na indústria. Bacharel em Matemática Computacional, sempre aprendendo sobre tecnologia, desenvolvimento de software e automação. É criador do site Palpite Digital onde compartilha conhecimentos desde 2007!

Deixe um comentário