반응형
반응형

음성인식 API는 어떻게 사용하는가?  SKTelecom NUGU


 

요약 

설명 

createSpeechRecognizer() 

초기화 

인식시 생성 

destroy() 

객체 소명 

인식기 소멸 

startListening()

인식 시작 


- 서버 접속 수행 후 마이크에서 음성입력을 받아 인식 수행

- 음성입력이 끝나면 자동으로 인식이 종료되고 createSpeechRecognizer() 실행 시  설정한 listener를 통해 인식 결과 또는 오료 결과를 반환 한다.


stopListening()

인식 종료 


- 음성인식을 종료

- 호출시점까지 입력된 음성으로 인식을 수행하고, createSpeechRecognizer() 실행시 설정한 listener로 인식 결과 또는 오류 결과를 반환 


onResults()

음성인식 완료 시 호출 


- 음성인식이 완료되면 호출

- 음성인식 결과는 SpeechRecognizer의 getSpeechRecognitionResults() 함수를 사용하여 읽어 올 수 있다. 



반응형
반응형
초보자를 위한 RNNs과 LSTM 가이드



이 포스팅은 RNNs(Recurrent Neural Networks), 특히 RNNs의 한 종류인 LSTM(Long Short-Term Memory)을 설명하는 포스팅입니다.

RNNs은 글, 유전자, 손글씨, 음성 신호, 센서가 감지한 데이타, 주가 등 배열(sequence, 또는 시계열 데이터)의 형태를 갖는 데이터에서 패턴을 인식하는 인공 신경망 입니다.

RNNs은 궁극의 인공 신경망 구조라고 주장하는 사람들이 있을 정도로 강력합니다. RNNs은 배열 형태가 아닌 데이터에도 적용할 수 있습니다. 예를 들어 이미지에 작은 이미지 패치(필터)를 순차적으로 적용하면 배열 데이터를 다루듯 RNNs을 적용할 수 있습니다.

RNNs은 배열에 등장했던 패턴을 ‘기억’할 수 있는 능력이 있습니다. 이 부분은 사람의 기억과 기억력에 비유하면 아주 간결하게 설명할 수 있어서 종종 RNNs을 사람의 뇌처럼 취급합니다.






반응형
반응형
‘리캡차’가 사라진다  reCAPTCHA: Tough on Bots, Easy on Humans

출처 ㅣ http://www.bloter.net/archives/273960



‘캡차'(CAPTCHA, Completely Automated Public Turing test to tell Computers and Humans Apart)는 사람과 컴퓨터를 판별해주는 보안 과정이다. 회원 가입이나 비밀번호 찾기를 할 때 종종 볼 수 있다. 기껏해야 10초 남짓이지만, 귀찮다. 구글이 이런 귀찮음을 덜어주기 위한 새로운 서비스를 내놓는다.


구글이보이지 않는 리캡차를 선보인다고 3월10일(현지시각) <아스테크니카>가 보도했다. 이전에 사람이 직접 글자를 입력하고 클릭으로 로봇이 아님을 직접 밝혀야 했다면, 이제 의심 가는 기계나 컴퓨터에만 보인다. 즉, 사람이라고 판단되면 보안 과정 없이 넘어간다.


캡차는 2000년, 카네기멜론 연구원들이 모여 만들었다. 2007년 ‘리캡차'(reCAPTCHA)로 이름이 바뀌면서 기술이 업그레이드됐고, 2009년 구글에 인수됐다. 당시 리캡차는 컴퓨터가 인식하지 못하는 고문서의 단어들과 인식 가능한 단어를 조합해 보여줬다. 사람들이 단어를 입력하는 10초 남짓 시간을 되도록 유용한 일에 쓰자는 뜻에서 고안됐다. 이런 식으로 리캡차는 디지털 작업과 보안을 동시에 성취했다.


하지만 시간이 흐르면서 이를 뛰어넘는 해킹 기술이 등장했다. 그러한 동향에 맞춰 2014년에 새로운 기술의 ‘노캡차 리캡차’가 재탄생했는데, 바로 지금 우리가 사용하는 버전이다. ‘나는 로봇이 아니다(I am not a Robot)’나 해당하는 블록 찾기와 같이 클릭을 통해 사용자가 사람인지 컴퓨터인지를 구분한다.


캡차, 리캡차, 노캡차 리캡차 비교 (기사)


문자를 넣는 방식에서 클릭하는 방식으로 이미 과정이 많이 생략되고 간단해졌지만, 구글은 거기서 멈추지 않았다. 이제는 사람들이 굳이 어떤 행동을 하지 않아도 보안 과정을 통과할 수 있게 만들어 사용자 환경을 개선했다.

보이지 않는 리캡차는 사용자들의 브라우징 습관을 이용한다. 사용자가 로그인한 뒤 하는 행동들을 파악해 이 시스템이 좀 더 정교할 수 있게끔 한다. 소개 영상에서는 ‘이 혁신을 가능하게 하는 건, 새롭게 등장한 위협에 대응하기 위해 기계학습과 진보된 위협 분석의 조합하는 것’이라 말하고 있지만, 자세한 원리는 찾기 힘들다. <아스테크니카>는 또다시 기술이 파악돼 새로운 위협에 노출되는 것을 의식한 구글이 자세한 설명을 공개하지는 않을 것 같다고 설명했다.

보이지 않는 리캡차는 무료로 사용할 수 있다. 현재는 기존 노캡차 리캡차와 보이지 않는 리캡차 중 하나를 선택해 사용할 수 있도록 제공되고 있다.



.







반응형
반응형

바풀, 세계 최초 ‘자동답변’ 에듀테크 기술 개발 2016-09-26


http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=014&aid=0003711273


에듀테크 시대 새로운 공부문화를 창조하는 ㈜바풀은 전 세계 최초로 사진 속 수학문제를 인식해 같은 문제와 유사 문제를 찾아 풀이와 답변을 제공하는 ‘자동답변’ 기술을 개발했다고 26일 밝혔다. 


㈜바풀은 바로풀기 서비스를 통해 모르는 문제가 생기면 스마트폰으로 사진을 찍어 질문하고 답변 받는 무료 공부 Q&A서비스를 운영 중이다. 이번에 개발한 ‘자동답변’ 에듀테크 기술은 지난 6년 간 바로풀기 서비스를 통해 구축한 400만 개 가운데 답변이 달린 100만 개의 DB를 검토하여 똑같은 질문을 찾아서 풀이와 답변을 보여주는 기술이다. 

똑같은 질문이 없을 경우, 수학문제의 수식과 텍스트(한국·영어)를 인식해서 유사한 질문의 답변을 제공하는 방식으로 문제풀이를 도와준다. 

세계 최초로 개발한 ‘자동답변’ 기술은 세 가지 기술이 융합되어 얻어진 결과다. 

먼저 ‘사진 후처리 기술’은 사용자가 촬영한 수학 문제로부터 각종 노이즈를 제거하고, 회전각과 비틀림 각을 보정해 문제 사진이 수평이 되도록 만든다.

이렇게 보정된 사진은 20여 단계로 구성된 독자적인 OCR(OpticalCharacter Reader/Recognition, 광학적 문자 판독) 기술을 통해 사진 속의 텍스트와 수식을 분리하고 이를 메타 정보로 기록한다. 

마지막으로 6년간의 서비스에서 얻어진 각 학년별 수학 단원 및 개념 맵을 활용함으로써 DB로부터 해당 문제의 답변, 그리고 사용자에게 도움이 될 수 있는 유사 문제를 제공한다. 

지금까지의 OCR기술은 한글보다 상대적으로 쉬운 언어인 영문 환경에 한해서만 그 기능을 수행할 수 있었고, 수학 문제에서는 수식으로만 이루어진 간단한 계산문제에 대해서만 풀이를 제공하는 수준이었으나, ㈜바풀은 세계 최초로 한글과 수식이 혼합된 환경에서도 그 둘을 각각 분리하여 사진 형태의 문제를 분석해 3초 정도의 시간이면 답변을 찾아준다. 

㈜바풀의 ‘자동 답변’기술을 통해 얻어진 학생의 정보는 KnowledgeTracing이 가능하며, 학생의 학습이력 관리 및 수준에 맞는 맞춤 강의와 선생님을 추천할 수 있다. 또한, 문제를 바탕으로 메타 콘셉트 데이터를 구축해서 문제 하나가 갖고 있는 여러 개념들을 묶어주고 분류할 수 있게 되어 학생들에게 유용한 정보를 제공할 수 있게 된다. 

바풀 김영재 CTO는 “바풀의 ‘자동답변’ 신기술을 통해 많은 학생들이 수학을 포기하지 않고 공부에 대한 재미를 느꼈으면 좋겠다”며 “㈜바풀은 교육과 IT를 접목한 에듀테크 신기술로 모든 학생들이 동등한 교육환경 속에서 양질의 교육을 경험할 수 있도록 노력하겠다”고 전했다. 

반응형
반응형
구글, 기업용 영상회의 서비스 ‘미트’ 출시













.



반응형
반응형

편리한 주문 시스템, O2O서비스 / YTN 사이언스


챗봇으로 만든 대화형 커머스 '톡 주문'  http://blog.lgcns.com/1142



What is O2O?






반응형

+ Recent posts