Difficile aujourd’hui de passer à côté des CAPTCHA. Ce sigle, signifiant « Completely Automated Public Turing test to tell Computers and Humans Apart » (test de Turing complètement automatisé pour séparer les humains des ordinateurs), recouvre en fait les fameuses lettres étranges que l’on trouve dans les inscriptions de la grande majorité des sites Web. La mesure vise à empêcher les « bots » de créer de multiples comptes.
La grande majorité des images fournies par reCAPTCHA provient de vieux journaux et de vieux livres. Or, comme l’explique Google dans un bulletin dédié au rachat de la société, les caractères d’imprimerie se sont dégradés avec le temps à cause de l’encre dont ils sont faits. Et reCAPTCHA dispose d’une technologie OCR (Optical Character Recognition) efficace pour vérifier que les chiffres et lettres entrées par l’utilisateur sont bien ceux de l’image.
Du coup, Google ne cache pas que cette technologie va être adaptée sur un maximum de ses sites, mais pas seulement. En effet, la firme est très impliquée dans la publication numérique d’ouvrages, en particulier avec Google Books. L’OCR de reCAPTCHA sera également repris dans ce cadre.Articles sur le même sujet :