반응형
반응형

HyperCLOVA X Vision: 눈을 뜨다

https://me2.do/5XJDTPFL

 

CLOVA

하이퍼스케일 AI로 플랫폼 경쟁력을 강화하고 비즈니스 시너지를 확장합니다.

clova.ai

서론 
‘백문불여일견’이라는 말처럼 텍스트로 전달할 수 있는 정보량에 비해 시각적인 정보는 훨씬 다양한 의미 관계들을 전달할 수 있습니다. 또한 ‘몸이 100냥이면 눈이 90냥’이라는 말도 인간이 삶을 살아가는 데 시각으로 받아들이는 정보가 얼마나 중요한지 강조하고 있습니다. 만약 HyperCLOVA X (HCX)가 텍스트를 넘어 이미지를 이해할 수 있게 된다면, 가깝게는 문서나 이미지의 처리를 자동화할 수 있고, 더 나아가 HyperCLOVA X를 두뇌로 사용하는 로봇과 같은 독립적인 에이전트가 목표를 수행하는데도 시각 정보를 활용할 수 있을 것입니다.


시각 정보를 올바르게 처리하기 위해서는 대량의 다양한 이미지 · 텍스트 데이터를 활용하여 모델을 학습하는 것이 필수적입니다. 저희는 이를 위해 네이버 내외부에서 고품질의 원천 데이터를 확보해 왔습니다. 해당 데이터가 서로 상충하지 않고 시너지를 낼 수 있도록 학습하는 데에 지금까지 많은 노력을 기울여 왔고, 그 결과 HyperCLOVA X Vision은 문서의 이해를 포함한 여러 가지 능력을 갖추고 있습니다. 기존의 HyperCLOVA X에 이미지를 이해하는 능력을 추가하는 것뿐만 아니라 기존에 가지고 있던 텍스트 관련 능력을 잊지 않고, 안전 관련 요소들도 놓치지 않도록 다방면으로 노력을 기울여 왔습니다. 이 글에서는 HyperCLOVA X Vision의 기술적 개요와 현재의 성능 수준을 간단한 예제 위주로 구성하여 소개해 드리려고 합니다.

 

HyperCLOVA X Vision 기술 소개
HCX Vision은 기존의 거대 언어 모델(Large Language Model)에 이미지 이해 능력을 더해 거대 시각 언어 모델(Large Vision Language Model)로 발전했습니다. 이를 위해 다양한 시각 및 언어 데이터를 사용하여 추가 학습을 진행했으며, 이 과정에서 이미지와 텍스트를 동시에 이해할 수 있는 능력을 갖추게 되었습니다. 특히, 여러 시나리오에 맞춘 다양한 데이터를 수집하여 다양한 상황에서 시각과 언어 이해 작업을 수행할 수 있도록 했습니다. 예를 들어, 문서 인식이나 이미지 내 텍스트 이해와 같은 작업에서도 뛰어난 성능을 발휘할 수 있습니다.


네이버는 세계 최고 수준의 한국어와 손 글씨 인식 능력을 갖춘 OCR 기술을 보유하고 있습니다. 이러한 경험을 바탕으로, HCX Vision은 문서 처리와 글자 인식 능력을 강화하여 사용자에게 더욱 정확하고 신뢰성 있는 서비스를 제공합니다.
HCX Vision은 초대량의 한국어 데이터로 학습된 거대 언어 모델인 HCX를 기반으로 하고 있습니다. 이에 따라 여러 한국어 및 한국 문화 관련 지식을 포함하고 있으며, 이러한 특성을 HCX Vision에 성공적으로 적용함으로써 한국어 문서와 이미지 내 텍스트 이해에 탁월한 성능을 발휘합니다.

 

HyperCLOVA X Vision 의 정량 지표

Public Benchmarks

  SEEDv1
(image)
MMMU
(val)
TextVQA
(val)
DocVQA
(test)
ChartQA
(test)
InfographicVQA
(test)
MathVista
(testmini)
VQAv2 Average
GPT-4V 69.1 56.8 78 88.4 78.5 75.1 49.9 77.2 71.63
HCX-VLM 75.6 45.1 77.9 89.8 81 65.2 57.1 81 71.59
 달성률(%) 99.94

 

HyperCLOVA X Vision의 여러 정량 지표를 소개해 드립니다. 성능 트래킹을 위해 내부적으로 30개에 가까운 지표를 사용하고 있지만, 여기서는 OpenAI GPT-4V와 직접적인 비교가 가능한 지표들만 일부 가져왔습니다. 앞으로 LLM의 Reasoning 능력 향상과 VLM 측면에서의 고해상도 처리를 위한 인코더 구조 변경, 추가적인 Vision Alignment Task 등 출시 이후 올해 하반기에도 점진적으로 성능을 향상할 예정입니다.

 

K-GED (한국 초 · 중 · 고 검정고시) 성능

Model Correct Answers
GPT-4o 1152/1480 (77.8%)
HCX-VLM 1240/1480 (83.8%)

 

정량 평가 중에서도 한국향 데이터를 더 많이 학습한 모델이 강점을 보일 수 있는 영역이 무엇이 있을지 고민하다가, 대한민국 초 · 중 · 고등학교 검정고시를 벤치마크로 활용해 보았습니다. 총 1,480개의 사지선다 검정고시 기출 문제로 구성되어 있으며 이미지 형태로 입력했음에도 불구하고 83.8%로 상당히 높은 정답률을 보입니다. 참고로 검정고시의 합격 기준점은 60%이며 77.8%인 GPT-4o보다 높은 성능을 보여줍니다.

 

예제 기반의 HyperCLOVA X Vision 기능들

하기에서는 분야별 다양한 작업에 대한 예제들을 소개합니다. 한창 개발이 진행 중인 상황이라 100% 완벽하지는 않지만, 거대 모델이 출현하기 이전에 독립된 개별 작업을 별도의 모델로 하나씩 격파하던 기억을 떠올려 보면 직접 개발을 진행하는 입장에서도 격세지감이 드는 상황입니다.

 

Detailed Image Captioning
이미지에 대해 상세한 설명을 요구하는 작업으로 이미지 캡셔닝이라고도 불립니다. 별도의 객체 인식 모델을 사용하지 않음에도 불구하고 이미지의 세세한 부분까지도 비교적 정확하게 인식하고 묘사할 수 있습니다.

 

 

Reasoning
이미지에 대한 상세한 이해를 바탕으로 상황에 대해 추론하거나 다음 단계를 예측할 수 있습니다. 해당 능력은 LLM의 고유 능력을 활용하며, LLM이 여러 비전 기능을 직접적으로 받아들이도록 학습하였습니다.

 

 

Entity Recognition
Entity는 의미를 갖는 단위를 지칭하며, 인명, 장소, 제품 등 다양한 형태를 가집니다. HCX Vision을 사용하여 역사적인 인물의 이름, 유명한 장소, 상품명, 음식의 이름을 이미지만으로 이해할 수 있습니다. 현시성 강화를 위한 검색 보강 생성 (Retrieval Augmented Generation; RAG) 등의 방식을 사용하지 않더라도, 기본적으로 학습 데이터에 존재했던 Entity를 무리 없이 인식할 수 있음을 확인했습니다.

 

 

Chart Understanding
사람의 직관적인 이해를 돕기 위하여 수치적인 데이터는 차트의 형태로 유통되는 경우가 많습니다. 사람에게는 쉽지만, 기계의 입장에서는 추상적인 표현을 이해해야 하기 때문에 성능을 내기가 매우 어려운 작업입니다.

 

 

Table Understanding
수치적인 비교 데이터는 표로 나타내는 것이 일반적입니다. 원본 데이터가 Excel이나 CSV 형태일 경우 텍스트 모달을 사용하는 LLM에 입력하여 바로 활용할 수도 있지만, 해당 데이터가 이미지의 캡처본일 경우에는 이미지에 있는 텍스트를 올바르게 인식하고, 그 위치적인 상관관계들을 이해할 수 있어야 프롬프트에 적합한 답변을 생성할 수 있습니다.

 

 

Document Understanding
일반적인 영어와 한글 문서뿐만 아니라, 한자 또는 일본어로 작성된 문서도 이해할 수 있습니다.

 


Culture and Humor (Meme Understanding)
유머나 문화를 이해하기 위해서는 매우 고차원적인 수준의 능력이 필요합니다. HCX Vision은 이미지와 텍스트 쌍으로 구성된 다량의 데이터를 학습하기 때문에 이러한 밈에 대한 이해가 가능합니다.

 

 

Equation Understanding
렌더링 되어 있는 수식은 사람이 쉽게 읽을 수 있는 데 반해서, 이를 다시 디지털 포맷으로 입력하는 것은 상당히 어려운 작업으로 TeX 문법이 익숙하지 않으면 오랜 시간이 소요됩니다. HCX Vision은 이러한 수동적인 입력 작업을 상당히 간소화할 수 있습니다.

 


Code Generation
특정 도형이나 차트, 그래프 등을 생성하는 데 필요한 코드를 생성할 수 있습니다.

 

 

Math Problem Solving
도형이 포함된 수학 문제를 이해하고 풀이를 제공할 수 있습니다.

 


Creative Writing (with Image Grounding)
HCX LLM 본연의 기능에 가깝지만, 이미지에 포함된 요소들을 기반으로 창의적인 글쓰기가 가능합니다.

 

 

HyperCLOVA X Vision 미래 전망과 Sovereign AI
현재 하나의 이미지에 대한 이해에서 나아가 수백만 단위의 컨텍스트 길이를 활용하여, 한 시간 이상 분량의 영화를 통째로 이해한다거나, 스트림으로 연속적으로 들어오는 영상을 이해하는 것이 가까운 시일 내에 가능해질 것으로 전망합니다. 이에 추가로 실시간 처리 기술까지 동반된다면 AI가 독립적인 개체로써 상황에 유연하게 대응하는 것이 가능해지고 정말 영화에서나 보던 로봇이 일상생활에 녹아들어 유용함을 제공해 주는 시대가 머지않았습니다.


LVLM도 Text-only의 LLM과 마찬가지로 지역이나 문화적 배경에 따라 다양한 가치관을 이해하거나 표현할 수 있어야 합니다. 특히 시각적인 기호 등의 해석에서도 Sovereignty가 중요해질 전망이고 결국 이러한 데이터를 유리하게 확보하고 선점할 수 있는 그룹이 사람들에게 더 유용하고 안전한 AI를 개발할 수 있습니다. 네이버는 대한민국 최고의 플랫폼으로써 필요한 데이터를 효과적으로 확보할 수 있는 유리한 위치에 있습니다.

반응형
반응형

‘데뷰’에서 보여준 네이버의 미래기술 10가지

‘생활환경지능'(Ambient Intelligence)’. 지난해 송창현 네이버 CTO가 데뷰행사에서 밝혔던 네이버의 기술 목표다. 다소 모호해 보였던 이 목표의 구체적인 결과물이 ‘데뷰 2017’ 현장에서 공개됐다.

1. 엠비덱스

송창현 네이버 CTO 겸 네이버랩스 대표가 ‘원 모어 띵'(One more thing)이라고 운을 띄우며 가장 마지막에 발표한 기술이다. 그만큼 자랑할만한 기술이라고 할 수 있다. ‘엠비덱스’는 한마디로 말하면 로봇팔이다. 사람팔과 비슷한 관절 구조를 가져와 유연하고 정밀한 활동을 하도록 지원하는게 특징이다. 코리아텍과의 산학협력으로 개발했으며, 무게는 2.63kg로 사람 팔보다 가볍다. 네이버가 발표한 대부분의 로봇은 가까운 미래에 적용하려고 개발한 기술인 것에 비해 엠비덱스는 보다 먼 미래를 바라보고 개발하는 기술이라고 한다.

석상옥 네이버랩스 로보틱스 그룹 리더는 행사 이후 진행된 기자간담회에서 “로봇팔은 로봇공학의 궁극적인 목적”이라며 “사람을 도와주려면 팔이 있어야 하고, 이를 통해 사람 팔이 할 수 있는 많은 일을 대체할 수 있을 것”이라고 설명했다. 또한 그는 “기존 공장에서 사용되고 있는 로봇팔은 무겁고 정밀하지 않기 때문에 사람이 다칠 위험이 있다”라며 “엠비덱스는 가볍고, 힘을 제어할 수 있어 보다 안전하게 다양한 일을 할 수 있을 것”이라고 밝혔다.

2. 어라운드

실내 자율주행 로봇이다. 일종의 로봇 청소기 진화버전이라고 볼 수 있다. 로봇이 실내의 장애물 등을 미리 파악하고, 동시에 위치를 인식해서 원하는 장소로 자동으로 이동한다. 3D 실내 구조를 파악하는 M1과 자율 주행 로봇이 합쳐진 결과다. 현장에서는 예스24 서점과 협력해 ‘어라운드’를 테스트한 결과도 공개했다. 영상에 따르면 사용자가 어라운드 위에 책을 놓으면 자동으로 직원이 있는 공간으로 이동한다.

이번 데모는 책을 이동해주지만, 네이버는 어라운드를 활용해 다양한 업무를 실내에서 활용할 수 있을 것으로 설명했다. 과거 실내 자율주행 로봇은 비싼 센서나 높은 프로세싱 파워가 필요해 상용화의 걸림돌이 되곤 했다. 네이버는 클라우드 기능을 활용해 가격을 대폭 낮췄다고 한다. 석상옥 네이버랩스 로보틱스 그룹 리더는 “복잡한 기능을 하는 뇌는 클라우드에 있고, 몸은 로봇에 남겨두는 형태”라며 “일반적인 자율주행에 쓰이는 라이더도 500만원 수준이지만 어라운드에는 샤오미에서 사용되던 몇십만원 수준의 부품을 활용했다”라고 비용을 낮춘 점을 강조했다.

3. 에어카트

가벼운 힘으로 누구나 무거운 물체를 운반할 수 있는 전동 카트다. 카트 손잡이에 달린 힘 센서가 실시간으로 카트의 움직임을 제어하기 때문에, 누구든 따로 조작 방법을 배울 필요없다. 비탈길에선 자동으로 브레이크가 작동된다. 송창현 CTO는 “회사 동료들이 무거운 짐을 들고 다니는 것을 보고 이것도 해결 못하면서 로봇 기술을 연구하느냐라는 이야기가 나왔다”라며 “그렇게 해서 떠올린 아이디어가 에어카트”라고 설명했다.

4. 아키

위치 정보를 알려주는데 특화된 웨어러블 기기다. 아이들과 부모를 위해 고안됐으며, 실내 공간에서도 자녀의 정확한 위치정보를 부모에게 제공한다. 머신러닝을 활용해 사용자가 반복 방문한 장소 시간 상황을 스스로 인지하고 아이의 생활 패턴을 학습해 아이가 갑자기 다른 곳으로 이탈한 정보도 쉽게 알려준다고 한다. 어느 정도 관심을 받을지는 지켜봐야 하겠지만 컴퓨터, 모바일, 스피커 외에 네이버가 웨어러블 기기라는 새로운 플랫폼을 다뤘다는 점에서 인상적이다. 아키는 2018년 1월에 공식 출시될 예정이다.

5. 4륜 밸런싱 전동 스케이트보드

사람이 단순히 몸을 기울이는것 만으로도 겉보기에는 가속, 감속, 방향전환이 가능한 전동 스케이트보드다. 시속 40km까지 속도를 낼 수 있다. 2개의 기울기 센서로 무게중심을 제어해 보다 안전한게 특징이다. 아직은 초기 개발 단계 수준이라고 한다.

6. 어웨이 오픈플랫폼

‘어웨이’는 지난 8월 정식 출시된 차량용 인포테인먼트 플랫폼이다. 2018년 상반기에는 어웨이 익스텐션, 어웨이 키트, 파트너사 하드웨어를 함께 구성해 관련 생태계를 확장해나간다고 한다. 어웨이 익스텐션은 서비스, 콘텐츠 제공사를 위한 각종 기술 모음으로 어웨이에 영상, 음악 등을 지원할 수 있게 도와준다. 이를 위한 음성인식 기능이나 차량 데이터 등을 연동해줄 것으로 보인다. 어웨이 키트는 단말기 제조업체를 위한 기술도구로 차량 내 네이버 서비스를 제공하거나 화면 크기 관리 등을 쉽게 할 수 있게 지원한다.

송창현 CTO는 어웨이 설문조사 결과도 이날 함께 발표했는데, 차량 공유 서비스 ‘그린카’ 이용자 500여명을 대상을 질문했다. 응답자는 내비게이션과 음성인식 기술이 어웨이에서 가장 만족한다고 답했다. 송창현 CTO는 “주목할 점은 차량 공유시장이 늘어나면서 자신이 소유하지 않은 차를 이용할 기회가 많아지고 있다”라며 “이러한 시장에서 나에게 맞춤화된다는게 중요하게 작용할 수 있다”라고 강조했다.

7. 자율주행 기술
네이버랩스는 직접 개발한 자율주행차가 한국 시내를 이동하는 데모영상을 공개했다. 한국의 기술 기업으로는 처음으로 인가받아 현장에서 운전했다고 한다. 데모 영상에서는 차량이 차선을 변경하며 속도를 조절하고 앞차를 파악하고 목적지까지 가는 모습을 보였다.

8. 클로바 플랫폼

네이버가 개발한 인공지능 플랫폼으로, 지난해 아미카로 발표됐다가 클로바로 이름이 바뀌었다. 클로바 앱, 인공지능 스피커 등에 이미 클로바가 활용돼고 있다. 네이버랩스는 앞으로 클로바 익스텐션 키트, 클로바 인터페이스 커넥트, 클로바 API를 확장시켜 소프트웨어 및 하드웨어 관련 생태계를 키울 것으로 보인다.

9. 웨일

지난해 발표한 네이버가 발표한 웹브라우저다. 베터버전은 100만회 넘게 다운로드됐으며, 올해 10월16일 정식 버전을 공개했다. 12월에는 모바일용 웨일도 공개할 예정이다. ‘웨일 연구소‘라는 온라인 공간에서 사용자들의 피드백을 받고, 수정하는 과정을 거쳤다. 여기에 참여한 인원은 1만명이다.


10. D2 스타트업 팩토리

기술은 아니지만 네이버이 스타트업 지원 프로그램인 D2 스타트업 팩토리도 인상적이었다. 최근 2년간 D2스타트업 팩토리는 1800여개 스타트업을 검토하고, 이중 국내 기술 스타트업 16곳에 투자를 진행했다. 가장 관심있는 분야는 역시 인공지능이다. 또한 2017년 네이버 및 네이버랩스가 국내와 해외 기술회사에 투자한 금액은 400억원 정도이다. 석상옥 네이버랩스 로보틱스 그룹 리더는 “실내 자율주행 로봇을 만들 때 위치 관련 기술은 D2를 통해 협력하는 스타트업과 함께 연구했다”라고 설명하기도 했다.




...


반응형
반응형


네이버 비즈니스 플랫폼(NBP)의 클라우드 서비스인 ‘네이버 클라우드 플랫폼‘은 매달 마지막 주 목요일 저녁마다 신규 상품을 추가한다. NBP는 이번에도 네이버 클라우드 플랫폼에 네이버 API 중심의 신규상품 14개가 새롭게 추가됐다고 6월30일 홈페이지를 통해 밝혔다.

공개된 AI API는 ▲클로바 스피치 리코그니션 ▲클로바 스피치 씬티시스 ▲클로바 페이스 리코그니션 등을 포함해 총 6종이다. 이 외에 네이버 지도를 포함한 네이버 서비스 API는 3종, 보안 컴퓨팅 상품 6종이 있다.

신규 AI API 5종

■ 클로바 스피치 레코그니션(Clova Speech Recognition, CSR)
– 사람의 목소리를 텍스트로 바꿔 음성 인식 서비스에 활용할 수 있다. 한국어와 영어, 일어, 중국어(간체)를 지원한다.

■ 클로바 스피치 씬티시스(Clova Speech Synthesis, CSS)
– 음성 합성 API로 입력한 텍스트를 자연스러운 목소리로 재생해준다.

■ 클로바 페이스 레코그니션(Clova Face Recognition, CFR)
– 이미지 속의 얼굴을 감지하고 인식하여 얻은 정보를 제공한다. 네이버가 보유한 이미지 DB를 이용한다.

■ 파파고 SMT
– 대규모 학습 데이터에 기반을 두어 언어 자동 번역 서비스를 제공한다. 네이버 서비스를 통해 번역 품질에 대한 축적된 피드백으로 기술 한계를 보완했다.

■ 파파고 한국어 이름 로마화 (Papago Korean Name Romanizer)
– 현행 로마자 표기법에 맞춰 한글 이름을 로마자로 변환하는 서비스. 영어판 명함 작성, 신용카드 발급, 여권 발급 등에 사용할 수 있는 API이다.

신규 네이버 서비스 API 3종

■ 네이버 지도 API
– 네이버 지도 기능을 활용해 위치 기반 서비스를 만들 수 있도록 돕는다. 실시간 교통상황을 표시하거나 360도 파노라마 뷰를 활용하는 등 필요에 맞는 지도를 만들 수 있다.

■ 캡차 (CAPTCHA)
– 이미지를 보여주고 정답을 맞히게 해 사람과 컴퓨터를 판별하고 어뷰징을 막아준다. 입력 주체가 사람인지 컴퓨터인지 판별하기 위해 스타일이 다른 두 종류의 캡차 이미지를 랜덤으로 제공한다.

■ nShortURL
– 긴 URL을 짧게 줄여 글자수 제한이 있는 SNS나 SMS를 이용할 때 도움을 준다. 최근 유해 정보를 통해 유해 사이트 URL 단축은 차단한다. QR코드 이미지를 무료로 함께 생성할 수 있다.

박원기 NBP 대표는 “네이버의 기술과 서비스 노하우가 반영된 API 상품들은 고객들이 가장 기대하고 있는 상품 중 하나로, 이러한 클라우드 상품을 통해 기업들은 기술 및 장애 대응 등의 지원을 받으며 네이버의 서비스를 한껏 활용할 수 있게 됐다”라며 “앞으로도 AI 및 API 상품 라인업을 지속해서 추가함으로써 클라우드 플랫폼을 통해 내부의 기술과 노하우들을 널리 확산하도록 할 것”이라고 덧붙였다.

반응형
반응형

인공지능 비서 앱 ‘네이버-클로바’ 베타 테스트 시작  


http://www.bloter.net/archives/279357



네이버가 ‘클로바‘를 탑재한 인공지능(AI) 비서 앱 ‘네이버-클로바’의 베타 테스트를 시작한다고 5월12일 밝혔다.


네이버는 AI 비서 서비스에 대한 이용자 접근성 강화를 위해 스마트폰 앱 형태로 출시, 이용자들이 스피커 등의 기기나 OS에 구애받지 않고 누구나 편리하게 활용할 수 있도록 했다. 이번 앱은 네이버와 라인이 공동 개발하고 있는 AI 플랫폼 클로바 기술을 적용해, 지식 정보 검색, 음악 추천, 통·번역, 영어회화, 감성 대화 등이 가능한 인공지능 비서를 표방한다.


‘네이버-클로바’의 가장 큰 강점은 지식 정보 검색이다. “올해 추석 언제야”, “500유로가 얼마야”와 같은 정답형 검색뿐 아니라 “한남동 회식 장소 추천해줘”, “영어 동화 들려줘” 등의 사용자가 원하는 정보도 추천한다.


음악 추천 같은 경우도 “신나는 노래 들려줘”, “80년대 여자 가수 노래 틀어줘” 등의 명령을 내리면, 다양한 조건과 취향에 맞는 음악을 바로 감상할 수 있다. 통역은 물론, 영어회화도 할 수 있다. “중국어(영어·일본어)로 ‘얼마에요’가 뭐야?” 등 외국어 통·번역과 함께 “영어 대화하자”라는 명령으로 영어대화 모드를 실행하고 영어 회화 연습도 할 수 있다.


이 외에도 “노래 불러줘”, “외로워”, “심심해” 등의 다양한 감정에 반응해 대화를 나눌 수 있는 등, 이용자들은 다양한 방식으로 AI 비서 서비스를 경험해볼 수 있다.


네이버는 “이용자들의 사용에 따라 학습하며 성장하는 AI 특성상, 네이버 AI 비서 앱 이용자들은 시간이 지날수록 자신에게 특화된 정보, 콘텐츠를 제공하는 차별화된 AI 비서 서비스 경험을 해 나가게 될 것으로 기대한다”라고 덧붙였다.


네이버는 이번 앱에 다양한 기능을 추가하며 비서의 지능을 높여갈 뿐 아니라, 이미 베타 테스트를 진행하고 있는 대화형 엔진 ‘네이버i’ 를 비롯한 ‘에어스(AiRS)’ 등 다양한 서비스를 통해 각각의 상황에서의 AI 사용성을 점검하며 클로바의 성능을 높여 나갈 계획이다.


안드로이드는 출시됐으며, iOS 버전은 조만간 출시 예정이다.

반응형
반응형
네이버, AI 기반 콘텐츠 큐레이션 서비스 ‘디스코’ 출시
AI 플랫폼 클로바의 추천 엔진을 탑재

네이버가 인공지능(AI) 플랫폼 클로바의 추천 엔진을 탑재한 콘텐츠 큐레이션 서비스 ‘디스코’(DISCO)를 출시했다고 5월31일 밝혔다. ‘콘텐츠’보다는 ‘추천’에 방점이 찍혀 있다. 디스코는 클로바의 고도화에 기여하는 서비스다.

디스코는 네이버의 콘텐츠 추천기술 ‘에어스'(AiRS) 등이 적용된 AI 플랫폼 클로바의 추천 엔진을 활용해 제작된 서비스다. 네이버는 ”갈수록 폭증하는 콘텐츠 환경에서 이용자가 자신의 취향에 맞는 콘텐츠를 서비스에서 발견하게 될 것이라는 의미로 ‘Discovery(발견)’에서 명명했다”라고 설명했다.

이용자는 디스코 앱을 실행하고 관심주제를 설정한 뒤, 해당 주제에 속하는 콘텐츠에 대해 ‘좋아’ 혹은 ‘싫어’ 같은 피드백을 제공한다. 그러면 디스코의 추천 엔진이 이용자 취향을 학습해, 이를 바탕으로 더욱 고도화된 추천 서비스를 제공한다. 이런 식으로 궁극적으로 이용자 취향에 맞는 콘텐츠들을 선별해 제공한다.

기본적으로는 이용자가 올린 콘텐츠 중에서 추천 콘텐츠를 고른다. 때문에 네이버가 제공하는 서비스이지만 브런치나 티스토리 등등 다양한 플랫폼의 글을 볼 수 있다. 이처럼 디스코는 내가 좋아하는 주제에 대한 콘텐츠 추천은 물론, 나와 콘텐츠 취향이 유사한 이용자들도 추천해 새로운 주제와 콘텐츠를 발견하고 함께 즐길 수 있도록 지원한다. 또한 비슷한 취향별로 이용자들이 자동 연계되는 구조를 통해, 생산자 혹은 큐레이터는 비슷한 취향의 이들에게 자신이 작성하고 수집한 정보를 자동으로 전달할 수 있다.

네이버는 “콘텐츠 유통을 위한 별도의 네트워크를 구축해야 했던 콘텐츠 생산자와 큐레이터는, 콘텐츠 작성과 수집에만 집중해도 기존 네트워크 이상 규모의 이용자들에게 자동으로 자신의 콘텐츠를 노출시킬 수 있게 됐다”라고 설명했다. 팔로워가 따로 없어도 자신이 생산한 콘텐츠를 유통시킬 수 있는 방법이 생겼다는 의미다. ‘비슷한 취향의 사람들이 좋아한 글’로 올려주는 방식이기 때문에 특정 분야만 잘 파도 어느 정도 유통이 될 수 있다.

개인 페이지에서는 자신이 ‘좋아’한 콘텐츠와 별도로 저장한 콘텐츠가 자동으로 분류 및 저장돼, 아카이브한 콘텐츠를 파악할 수 있도록 했다.

네이버는 “앞으로도 디스코 이용자들의 사용 행태와 다양한 피드백을 통해 서비스를 더욱 고도화하며, 지금까지와는 차별화되는 개인별 맞춤 콘텐츠 큐레이션 서비스를 선보여 나갈 예정”이라며 “디스코 이용자들의 피드백을 반영한 고도화된 추천 기술을 베타 테스트 진행 중인 인공지능 비서 앱 ‘네이버-클로바’의 사용성 개선에도 반영할 방침”이라고 밝혔다.


반응형
반응형


네이버·라인, 인공지능 플랫폼 ‘클로바’ 공개  http://www.bloter.net/archives/273017


Clova clova.ai 공식 통합형 인공지능 플랫폼 Clova

 

네이버와 라인이 인공지능 플랫폼 확장을 위해 힘을 합친다. 이데자와 다케시 라인주식회사 대표는 3월1일(현지시간) 열린 ‘모바일 월드 콩그레스(MWC) 2017’ 기조연설에서 양사 합작 인공지능 플랫폼 ‘클로바’를 공개했다. 클로바(Clova)는 ‘CLOud Virtual Assistant’의 약자로, 음성인식 기반의 클라우드 플랫폼을 의미한다.


클로바는 ‘프로젝트J’에서 내놓은 서비스다. 프로젝트J는 네이버랩스와 라인의 인공지능 연구소가 공동 연구개발을 하기 위해 꾸려졌다. 이번에 공개한 클로바는 프로젝트J가 네이버 음성인식 인공지능 플랫폼 ‘아미카’의 업그레이드 버전으로 내놓은 것이다. 네이버는 지난 1월26일 진행된 2016년 4분기 컨퍼런스콜에서 “프로젝트J의 기본적인 구상과 개발 방향은 24시간 언제나 사용자와 함께하는 인공지능 가상비서 서비스를 만드는 것이 목표”라고 밝힌 바 있다.


네이버 관계자는 “앞으로 클로바를 양사 단일 서비스 형태로 진행할 예정”이라고 말했다. 서비스 총괄 역시 프로젝트J를 총괄한 신중호 라인CGO(글로벌경영총괄)가 이어간다. 이번 합작은 양사 인공지능 기술력을 바탕으로 아시아 글로벌 시장 진출을 염두한 것으로 보인다.


클로바는 인간의 오감을 활용한 인공지능 플랫폼을 목표로 하고 있다. 인간이 오감을 활용하는 것처럼, 인공지능도 결국 인간의 오감을 활용하는 방향으로 나아갈 것이라는 인식에 기반했다. 기존 아미카가 주로 음성인식 서비스를 했던 것에서 나아가 다양한 감각을 인지하는 것으로 확장해 나갈 방침이다.


클로바는 ▲인간의 오감에 해당하는 ‘클로바 인터페이스’▲인간 두뇌에 해당하는 ‘클로바 브레인’▲기기와 애플리케이션을 연결하는 ‘클로바 인터페이스 커넥트’▲콘텐츠·서비스 연결로 ‘클로바 브레인’의 기능을 확장하기 위한 ‘클로바 익스텐션 키트’ 등으로 구성된다.


클로바 브레인은 인공신경망 기계번역(NMT)와 자연어처리 등 다양한 기술을 기반으로 한다. 기존 아미카가 음성 언어 이해, 대화관리, 응답 생성의 단계로 기술을 구사했다면, 클로바 브레인은 클로바 인터페이스로 인지된 상황을 자동 분석하고 이에 맞는 결과를 제시하는 방식으로 발전했다.


네이버와 라인은 올 여름 클로바가 탑재된 자체 스마트폰 앱 출시를 시작으로 AI 스피커 ‘웨이브’ 등 다양한 기기와 서비스들을 발표할 예정이다. 소니, 다카라 토미, 윈클 등 각 분야별 전문기업과 파트너십도 염두에 두고 있지만, 아직 구체적인 협의 사항은 없으며 앞으로 논의를 이어갈 예정이라고 말했다.


네이버 관계자는 <블로터>와 통화에서 “오늘 발표는 기존에 연구하던 AI플랫폼의 업그레이드 버전인 클로바의 명칭을 공개하고, 앞으로의 발전 방향성을 얘기하기 위함”이라며 “자세한 서비스에 대해서는 추후 공개할 예정”이라고 말했다.



반응형

+ Recent posts