국내연구진, 문장 입력하면 2초만에 뚝딱 이미지 생성!
초고속 생성형 시각지능 모델 공개, 달리 대배 5배 빨라
한국전자통신연구원(ETRI)이 생성형 인공지능과 시각지능 기술을 결합해 문장으로부터 단 2초 만에 이미지를 생성할 수 있는 '코알라 3' 모델 등 5개 모델을 지난26일 공개했다. 국내연구진이 만든 이번 기술은 초고속 생성 시각지능 연구에 새로운 동력을 제공할 것으로 기대된다.
(
이번에 공개된 KOALA 모델은 오픈소스 모델에 지식 증류 기법을 적용해 파라미터 수를 25.6억 개에서 7억 개로 획기적으로 줄였다. 또한, ETRI는 이미지나 영상에 대해 질문하고 답변을 받을 수 있는 대화형 시각 언어 모델 Ko-LLaVA도 개발했다.
ETRI의 코알라 700M 모델은 실제로 연구진이 "화성에서 책을 읽는 우주비행사"라는 문장을 입력하자 단 1.6초 만에 이미지로 생성해 카카오의 칼로, 오픈AI의 달-E 2, 달-E 3 모델보다 훨씬 빠른 속도를 보였다. ETRI는 자사 모델을 다른 4개 모델과 직접 비교하고 사용자가 직접 체험할 수 있는 웹사이트를 만들었다.
ETRI는 모델 크기를 줄임으로써 모델 사용에 따른 전산 및 운영비용을 낮춰 중소기업이 보다 쉽게 접근할 수 있도록 하는 것이 목표라고 밝혔다.
한편,ETRI는 향후 다양한 시도를 통해 작지만 고성능의 새로운 모델을 공개할 계획이며 또한 이미지 제작 서비스, 창의 교육 서비스, 콘텐츠 제작, 비즈니스 등 다양한 분야에서 이 기술을 활용할 수 있도록 할 계획이다.