국내연구진, 문장 입력하면 2초만에 뚝딱 이미지 생성!

한국전자통신연구원(ETRI)이 생성형 인공지능과 시각지능 기술을 결합해 문장으로부터 단 2초 만에 이미지를 생성할 수 있는 '코알라 3' 모델 등 5개 모델을 지난26일 공개했다. 국내연구진이 만든 이번 기술은 초고속 생성 시각지능 연구에 새로운 동력을 제공할 것으로 기대된다.

코알라700비교.jpg

(사진제공 ETRI)

이번에 공개된 KOALA 모델은 오픈소스 모델에 지식 증류 기법을 적용해 파라미터 수를 25.6억 개에서 7억 개로 획기적으로 줄였다. 또한, ETRI는 이미지나 영상에 대해 질문하고 답변을 받을 수 있는 대화형 시각 언어 모델 Ko-LLaVA도 개발했다.

ETRI의 코알라 700M 모델은 실제로 연구진이 "화성에서 책을 읽는 우주비행사"라는 문장을 입력하자 단 1.6초 만에 이미지로 생성해 카카오의 칼로, 오픈AI의 달-E 2, 달-E 3 모델보다 훨씬 빠른 속도를 보였다. ETRI는 자사 모델을 다른 4개 모델과 직접 비교하고 사용자가 직접 체험할 수 있는 웹사이트를 만들었다.