반응형

캡챠

reCAPTCHA

 

오래전에 제작된 종이책들을 텍스트화하기 위해 OCR 프로그램을 사용하는데, 낙서나 얼룩, 헤짐 등의 방해요소만 있어도 OCR 프로그램은 텍스트를 제대로 인식하지 못한다. 이런 단어들은 사람이 하나하나 판독해야 하지만 수요가 적은 책들까지 일일이 입력하려면 노동력과 인건비가 많이 들어간다. 이를 해결하기 위해 CAPTCHA를 입력하는 수많은 사용자들의 힘을 빌리는 것이 바로 reCAPTCHA이다.

reCAPTCHA는 다음과 같은 과정을 거친다.
1.reCAPTCHA는 두 개의 암호코드를 제시한다. 하나는 컴퓨터가 이미 답을 알고 있는 단어이지만 다른 하나는 서적을 텍스트화 하는 도중 OCR이 인식하지 못한 단어이다.
2.사용자가 두 단어를 모두 입력하면 컴퓨터는 이미 답을 아는 단어로 대상이 사람인지를 확인한다.
3.대상이 사람이라고 판정된 경우 나머지 단어 또한 정답으로 판단한다.
4.이렇게 인식하지 못한 한 단어를 여러 번 반복해서 테스트한 뒤 높은 비율로 입력된 단어를 선택해 책을 텍스트화하는 데에 적용하게 된다.

시각장애인을 위한 오디오 reCAPTCHA의 경우에도 옛 라디오 프로그램 중에서 자동으로 소리 인식이 되지 못한 부분을 활용한다.

reCAPTCHA를 통해 텍스트화되는 책의 숫자는 연간 250만권 정도에 해당한다. 하루에 10만건에 이르는 이 절차들은 CAPTCHA를 입력하는 데 낭비되는 시간을 활용하면서 수많은 책의 디지털화에 기여하고 있다.

reCAPTCHA를 사용하려는 유저들은 reCAPTCHA 배포 사이트를 통해 무료로 이용할 수 있다.

 

https://www.google.com/recaptcha/

 

 

예제 : https://developers.google.com/recaptcha/docs/display#js_api

 

속성 : https://developers.google.com/recaptcha/docs/display

 

 

 

 

반응형

+ Recent posts