더우바오 AI, 새로운 아키텍처 등장 

 중국 AI 모델에 새로운 아키텍처가 등장했다.

12일 증권시보왕에 따르면 바이트댄스 산하 더우바오 인공지능(AI) 모델 파운데이션팀은 새로운 희소 모델 아키텍처 울트라멤(UltraMem)을 제안했다.

울트라멤은 MoE(Mixture of Experts, 전문가 조합)보다 추론 속도가 2~6배 빠르며, 추론 원가를 최고 83% 낮출 수 있을 것으로 기대된다.

AI 모델 주류인 트랜스포머 아키텍처의 경우 모델의 성능은 파라미터 수, 연산의 복잡성 등과 관계성을 보인다.

대언어 모델 규모가 커질수록 추론 원가가 급격히 증가하며 속도는 더 느려진다.

MoE 아키텍처가 이미 연산과 파라미터의 디커플링에 성공했지만 추론 시 적은 배치사이즈가 전체 전문가를 활성화하면 메모리 접근을 급격히 높여 추론을 지연시키는 문제가 있다.

더우바오 AI 모델 팀은 울트라멤이 이러한 문제를 효과적으로 해결할 수 있는 대안이라고 설명했다.

새로운 아키텍처 울트라멤의 등장은 AI 모델 훈련 추론 원가를 빠르게 낮춰 AI 모델 발전을 더욱 촉진할 것으로 기대된다.

searchmchina@searchmchina.com