카카오브레인, 7억 4천만개 이미지-텍스트 데이터셋 ‘코요’ 전격 공개

이 기사는 AI타임즈의 허락을 받아 게재하였습니다. 자세한 정보는 아래의 본문 링크를 참조해주세요. :smiling_face:


…(전략)…

카카오브레인은 ‘코요’ 개발 시, 독자 개발한 기술로 이미지-텍스트를 온라인에서 자동 수집함으로써 투입되는 비용과 시간을 효과적으로 줄이고, 동시에 양질의 데이터를 선별하여 높은 성능을 구현했다.

실제로 유수의 글로벌 AI 기업에서 공개한 초거대 AI 모델 재현을 통해 교차 검증을 마치며 데이터의 품질을 확인했다.

‘코요’는 카카오브레인이 앞서 지난 4월에 공개한 초거대 AI 이미지 생성 모델 ‘RQ-트랜스포머(Transformer)’와 AI 아티스트 ‘칼로(Karlo)’ 개발에 적용됐으며, 기술의 우수성을 종합적으로 인정받아 6월에 열린 세계적 학술대회 CVPR 2022에서 해당 논문의 발표 기회를 얻었다. 또, 최근 현대미술가 고상우, 삼성전자 ‘갤럭시 북 아트 프로젝트’ 와의 협업을 통해 AI 아티스트 ‘칼로’의 활용 가능성을 입증한 바 있다.

한편, 카카오브레인은 멕시코의 대표 화가 프리다 칼로(Frida Kahlo)의 고향인 멕시코시티 '코요아칸(Coyoacán)'의 앞 글자를 따 이번 데이터셋을 ‘코요’로 지었다. ‘칼로’가 ‘코요’를 기반으로 탄생하게 된 것처럼 ‘코요’를 통해 수많은 AI 모델이 개발됐으면 하는 카카오브레인의 포부가 담겨있다.

카카오브레인은 현재까지 글로벌로 공개된 데이터셋 중 최상위급 규모인 ‘코요’를 세계 최대 수준으로 확대한다는 목표 하에 한국어를 비롯한 다양한 언어로 개발해 나갈 계획이다. 또한, 내년 상반기 중 ‘코요’ 데이터셋을 활용한 초거대 AI 모델을 추가 공개할 예정이다.

…(후략)…

좋아요 1