반응형

비영리 AI 기술 연구 기관 AI2(Allen Institute for AI)가 AI 스타트업 컨텍스추얼AI(Contextual AI), 프린스턴대학, 워싱턴대학과 공동으로 개발한 오픈소스 AI 모델 ‘OLMoE’를 4일 공개했다.
 

사진 제공 : AI2 논문
OLMoE는 희소 혼합 전문가(sparse Mixture of Experts, MoE) 구조를 활용한 것이 특징이다. 여기서 말하는 ‘MoE’는 AI 모델의 성능을 높이고 계산 효율성을 극대화하기 위한 구조다. 전통적인 대규모 AI 모델이 주어진 입력에 대해 모델의 모든 매개변수를 사용하여 계산을 수행하는데, 이 과정은 매우 많은 연산 자원을 요구한다. 반면, MoE는 입력 데이터에 맞춰 모델의 일부만 활성화해 연산을 수행하는 방식으로, 불필요한 연산을 피하고 자원을 절약한다. 이때 말하는 ‘전문가(experts)’는 일종의 하위 모델들이며, 희소라는 용어는 이들 중 일부만을 활성화해서 사용하는 방식을 뜻한다.

OLMoE는 70억 개의 매개변수를 보유하고 있으나 실제로 입력되는 데이터(토큰)당 10억 개의 매개변수만 사용한다. 또한 64개의 작은 전문가 네트워크 중 8개만이 각 입력에 대해 활성화된다. 연구진에 따르면, 이러한 구조 덕분에 OLMoE는 성능 저하 없이 연산 자원을 절감하여 효율성을 크게 높인다. 업계에서 공개된 모델 중 제미나이, 미스트랄, 그록 등이 MoE 구조를 활용하고 있다.

개발진은 OLMoE가 MoE 구조를 통해 지연 시간에 민감한 사용 사례에서 더 빠른 RAG 시스템 개발에 유용할 수 있다고 설명했다. 또한 모바일 기기, 차량, IoT 장치 등 상대적으로 성능이 낮은 엣지 디바이스에서도 활용 가능성이 높아 AI 기술의 적용 범위를 확장할 수 있다고 밝혔다. OLMoE는 OLMoE-1B-7B와 OLMoE-1B-7B-Instruct 두 가지 버전으로 제공되며, 각각 범용적 사용과 지시 기반 튜닝을 지원한다.

연구진은 OLMoE가 ‘오픈소스 형태의 AI 모델’이라고 소개했다. 논문을 통해 연구진은 “업계에 공개된 MoE 모델은 폐쇄된 형태이며, 일부 공개된 모델에서도 가중치를 제공하지만, 대부분 훈련 데이터, 코드, 또는 방법론에 대한 정보는 거의 또는 전혀 제공되지 않는다”라며 “MoE는 활성화되는 매개변수 개수, 전문가 수의 규모, 전문가 공유 여부, 라우팅 알고리즘 선정 방식 등 복잡한 설계 질문이 활용되므로, 업계 연구를 위해 더 많은 것이 공개되어야 한다”라며 오픈소스 모델의 필요성을 강조했다.

이번에 공개된 OLMoE는 모델 가중치뿐만 아니라 훈련 데이터, 코드, 로그, 중간 훈련 체크포인트까지 오픈소스 라이선스(Apache 2.0 또는 ODC-By 1.0) 하에 공개됐다. 연구진은 이를 통해 MoE 모델의 과적합 여부, RAG 파이프라인 최적화 등 다양한 연구 질문을 탐구할 수 있을 것으로 기대하고 있다. 연구진은 “완전한 오픈소스 형태인 OLMoE가 다양한 AI 모델 연구에 도움을 줄 수 있을 것”이라고 밝혔다.

한편 AI2는 2014년 마이크로소프트 공동 창립자 폴 앨런이 설립한 비영리 연구 기관이다. 이 기관은 인공지능 기술의 오용 방지와 함께 공정성 및 투명성 강화를 위한 활동을 주도하고 있다. https://www.ciokorea.com/news/349955

 

“저지연·모바일 특화 MoE 모델”··· AI2, AI 모델 ‘OLMoE’ 오픈소스로 공개

비영리 AI 기술 연구 기관 AI2(Allen Institute for AI)가 AI 스타트업 컨텍스추얼AI(Contextual AI), 프린스

www.ciokorea.com

 

반응형

+ Recent posts