Magma ์ฐ๊ตฌ ์๊ฐ
๋ง์ดํฌ๋ก์ํํธ ๋ฆฌ์์น(Microsoft Research)์์ ์๋ก์ด ๋ฉํฐ๋ชจ๋ฌ AI ์์ด์ ํธ ๋ชจ๋ธ, Magma๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ๊ธฐ์กด์ AI ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ํ ์คํธ๋ ์ด๋ฏธ์ง, ๋๋ ํน์ ํ ํํ์ ๋ฐ์ดํฐ๋ฅผ ์ค์ฌ์ผ๋ก ๋์ํ์ง๋ง, Magma๋ ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค, ํ๋(Action)๊น์ง ํตํฉ์ ์ผ๋ก ์ดํดํ๊ณ ํ์ฉํ ์ ์๋ ์ต์ด์ ๊ธฐ๋ฐ ๋ชจ๋ธ(Foundation Model)์ ๋๋ค.
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ์ด๋ฏธ์ง-ํ ์คํธ ๋งค์นญ(Cross-Modal Retrieval) ํน์ ๋น๋์ค ์บก์ ๋(Video Captioning)๊ณผ ๊ฐ์ ์ ์ ์ธ ์์ ์ ์ง์ค๋์ด ์์์ต๋๋ค. ํ์ง๋ง Magma๋ ๋จ์ํ ์ดํด๋ฅผ ๋์ด, ํน์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ ํ๋(Action)๊น์ง ์ง์ ์์ฑํ ์ ์๋ค๋ ์ ์์ ์ฐจ๋ณํ๋ฉ๋๋ค.
์๋ฅผ ๋ค์ด, Magma๋ ๋จ์ํ ํ๋ฉด์ ๋ํ๋ UI ์์๋ฅผ ์ค๋ช ํ๋ ๊ฒ์ด ์๋๋ผ, ์น์ฌ์ดํธ์์ ๋ฒํผ์ ํด๋ฆญํ๊ณ , ์์์ ์์ฑํ๋ ๋ฑ์ UI ์กฐ์์ ์ํํ๋ ๋ฑ์ ํ๋(Action)๊น์ง ํ ์ ์์ต๋๋ค. ๋ํ, ๋ก๋ด ์กฐ์(Robotics Manipulation)๊ณผ ๊ฐ์ ์์ ์์๋ ๋ก๋ด ํ์ด ํน์ ๋ฌผ๊ฑด์ ์ก๊ณ ์ด๋์ํค๋ ํ๋์ ๊ณํํ๊ณ ์คํํ๋ ๊ฒ์ ์ผ๋์ ๋๊ณ ์ค๊ณ๋์์ต๋๋ค. ์ด๋ฌํ ํน์ง ๋๋ถ์ Magma๋ ๋์งํธ ํ๊ฒฝ(์: ์น ํ์)๊ณผ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ(์: ๋ก๋ด ์กฐ์) ๋ชจ๋์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
Multimodal Agentic Model, Magma ์๊ฐ
๋ฌธ์ ์ ์(Problem Definition)
Magma๋ ๋จ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๋ ๊ฒ์ ๋์ด, ๋์งํธ ๋ฐ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์์ ์ค์ ํ๋์ ์ํํ ์ ์๋ AI ์์ด์ ํธ๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฅผ ์ํด Magma๋ ๋ฉํฐ๋ชจ๋ฌ ์ดํด, ํ๋ ์์ธก, ๊ณต๊ฐ์ ์ถ๋ก ๋ฑ์ ํฌํจํ ์์ด์ ํธ ๋ชจ๋ธ๋ง(Agentic Modeling) ๊ธฐ๋ฒ์ ์ ์ฉํ์์ต๋๋ค. ์ด๋ฅผ ์ํด ๋จผ์ Magma ๋ชจ๋ธ์ด ํด๊ฒฐํด์ผ ํ ๋ฌธ์ ๋ฅผ ์ ์ํฉ๋๋ค.
๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ AI ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ์๊ฐ-์ธ์ด ๋ชจ๋ธ (Vision-Language Models, VLMs)๋ก ์ค๊ณ๋์ด ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํจ๊ป ์ดํดํ๋ ์ญํ ์ ์ํํฉ๋๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ํน์ ํ ํ๊ฒฝ์์ ๋์ํ๋๋ก ์ค๊ณ๋์ง ์์ผ๋ฉฐ, UI ์กฐ์์ด๋ ๋ก๋ด ์กฐ์๊ณผ ๊ฐ์ ์ค์ ํ๋์ ์ํํ๋๋ฐ ํ๊ณ๊ฐ ์์ต๋๋ค. Magma๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ํ๋ ์์ธก์ ๊ฒฐํฉํ ์๋ก์ด ๋ฌธ์ ์ ์๋ฅผ ์ ์ํฉ๋๋ค:
-
๋ฉํฐ๋ชจ๋ฌ ์ดํด (Multimodal Understanding): Magma๋ ๋์งํธ ํ๊ฒฝ(UI ๋ฐ ์น ํ์ด์ง)๊ณผ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ(๋ก๋ด ์กฐ์ ๋ฐ ์ค์ ์ธ๊ณ)์์ ์ ๊ณต๋๋ ๋ฐ์ดํฐ๋ฅผ ๋์์ ์ดํดํด์ผ ํฉ๋๋ค. ์ฆ, ํ ์คํธ์ ์ด๋ฏธ์ง๋ฟ๋ง ์๋๋ผ, ๋น๋์ค ๋ฐ ์ธํฐ๋์ ๋ฐ์ดํฐ๋ ํ์ตํ์ฌ ์๊ฐ์ ๊ด๊ณ(Temporal Relationships)๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ถฐ์ผ ํฉ๋๋ค.
-
ํ๋ ์์ธก (Multimodal Action Prediction): ๋จ์ํ ํ ์คํธ ๊ธฐ๋ฐ์ ๋ต๋ณ์ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ, ๊ตฌ์ฒด์ ์ธ ํ๋(Action)์ ์์ธกํด์ผ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, UI ๋ด์์ โํธํ ์์ฝํ๊ธฐโ๋ผ๋ ๋ช ๋ น์ ์ํํ ๋ ๊ฒ์ ๋ฒํผ์ ํด๋ฆญํ๊ณ , ์ ์ ํ ํญ๋ชฉ์ ์ ํํ๋ ์ฐ์์ ์ธ ์ก์ ์ํ์ค(Action Sequence)๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ๋จ์ํ โ์ปต์ ์ก์๋ผโ๋ผ๋ ๋ช ๋ น์ ์ดํดํ๋ ๊ฒ์ด ์๋๋ผ ํ์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๊ณ , ์ง๊ฒ๋ฅผ ์ด๊ณ ๋ซ์ผ๋ฉฐ, ์ ์ ํ ํ์ ๊ฐํ๋ ๋ฑ์ ์ธ๋ถ์ ์ธ ํ๋์ ์ง์ ์ํํฉ๋๋ค.
-
๊ณต๊ฐ์ ์ดํด์ ์คํ (Spatial and Temporal Intelligence): Magma๋ ๊ณต๊ฐ์ ์ผ๋ก ๋ฌผ์ฒด์ ํ๊ฒฝ์ ๊ด๊ณ๋ฅผ ํ์ ํด์ผ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ์ฑ ์์ ์ ๋ฆฌํดโ๋ผ๋ ๋ช ๋ น์ ๋ฐ์ผ๋ฉด ์ฑ ์์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ , ๋ฌผ๊ฑด์ ์ ๋ฆฌํ๋ ๋ ผ๋ฆฌ์ ์ธ ์์๋ฅผ ๊ณํํ ์ ์์ด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด, Magma๋ Set-of-Mark (SoM)๊ณผ Trace-of-Mark (ToM) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ํน์ ํ ํ๋์ด ํ์ํ ๋์(์: ํด๋ฆญ ๊ฐ๋ฅํ UI ๋ฒํผ, ๋ก๋ด์ด ์ง์ ์ ์๋ ๋ฌผ์ฒด ๋ฑ)์ ํ์ตํฉ๋๋ค.
๋ฐฉ๋ฒ๋ก (Method)
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฉํฐ๋ชจ๋ฌ ์์ด์ ํธ(Multimodal Agent)๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ํด Magma๋ ์ฌ์ ํ์ต(Pretraining)๊ณผ ๋ฏธ์ธ ์กฐ์ (Finetuning)์ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋์งํธ UI ๋ด๋น๊ฒ์ด์ , ๋ก๋ด ์กฐ์, ์์ ์ดํด ๋ฑ์ ๋ค์ํ ์์ ์ ํ๋์ ๋ชจ๋ธ์์ ์ํํ ์ ์์ต๋๋ค:
-
๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ํตํฉ ํ์ต: Magma๋ ์น UI ๋ฐ์ดํฐ, ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ, ์์ ๊ธฐ๋ฐ ํ๋ ๋ฐ์ดํฐ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๊ฒฐํฉํ์ฌ ํ์ตํฉ๋๋ค. ๊ธฐ์กด์ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM)๊ณผ ๋ฌ๋ฆฌ, Magma๋ ํ ์คํธ ๋ฐ ์ด๋ฏธ์ง๋ฟ๋ง ์๋๋ผ ํ๋(Action) ๋ฐ ์๊ฐ(Time) ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ตํฉ๋๋ค. ์ด๋ฅผ ํตํด, ๋ชจ๋ธ์ด ๋จ์ํ ์ ์ ์ธ ์ ๋ณด๋ง ์ดํดํ๋ ๊ฒ์ด ์๋๋ผ, ์๊ฐ์ ๋ณํ(Temporal Change)์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ(Interaction with Environment)์ ํ์ตํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
-
ํ๋ ์์ธก์ ์ํ ๊ฐํ ํ์ต ๊ธฐ๋ฒ: ์ผ๋ฐ์ ์ธ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM)๊ณผ ๋ฌ๋ฆฌ, Magma๋ ํน์ ํ ํ๋์ ์ํํ ์ ์๋๋ก ํ์ตํด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์, ํ๋ ์์ธก์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด ๊ฐํ ํ์ต(Reinforcement Learning, RL) ๊ธฐ๋ฒ์ ์ผ๋ถ ์ ์ฉํ์์ต๋๋ค. UI ๋ด๋น๊ฒ์ด์ ์ ๊ฒฝ์ฐ, ์ฌ๋ฐ๋ฅธ ๋ฒํผ์ ํด๋ฆญํ์ ๋ ๋ณด์์ ์ฃผ๊ณ , ์๋ชป๋ ํ๋์ ํ์ ๋ ํ๋ํฐ๋ฅผ ๋ถ์ฌํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค. ๋ก๋ด ์กฐ์์ ๊ฒฝ์ฐ์๋ ๋ชฉํ์ ๋๋ฌํ ํ๋ฅ ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ํ๋์ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ด ์ ์ฉ๋ฉ๋๋ค.
- Set-of-Mark (SoM) for Action Grounding: SoM ๊ธฐ๋ฒ์ ์ ์ ์ธ ์ด๋ฏธ์ง๋ฅผ ๋์์ผ๋ก, ๋ชจ๋ธ์ด ์ทจํ ์ ์๋ ์ก์ ํ๋ณด๋ค์ ์๊ฐ์ ์ผ๋ก ํ์ํ๊ณ , ์ด๋ฅผ ํ ์คํธ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๋ ๊ณผ์ ์ ๋๋ค. ์์ปจ๋ ๋ชจ๋ฐ์ผ ์ฑ ํ๋ฉด์ ์๋ ์ฌ๋ฌ ๋ฒํผ์ด ์์ ๋, ๊ฐ๊ฐ์ ๊ตฌ๋ถํด์ ๋ฒํธ(1, 2, 3, โฆ)๋ฅผ ํ ๋นํ ๋ค, ํด๋น ์์น์ ๋ฐ์ค๋ ๋งํฌ๋ฅผ ๊ทธ๋ ค๋ฃ๋ ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ์ด โ์ด๋ค ๋ฒํผ์ ํญํ ๊ฒ์ธ์งโ ์์ธกํ ๋, ๋จ์ํ โ๋งํฌ #2๋ฅผ ํด๋ฆญโ ์์ผ๋ก ์์ธกํ๋ฉด ๋ฉ๋๋ค. ์ค์ ๋ก๋ 2D ์ขํ๋ฅผ ์ง์ ์์ธกํด์ผ ํ์ง๋ง, ์ขํ๊ฐ ์์ฒด๋ฅผ ํ ํฐํํ๊ธฐ ์ด๋ ต๊ณ ์ค์ฐจ ๊ฐ์ ํญ๋ ์ปค์ง๋ฏ๋ก, ์ฌ๋ฌ ํ๋ณด ์ค ํ๋๋ฅผ ์ ํํ๋ ๋ฌธ์ ๋ก ๋ฐ๊ฟ ๋จ์ํํ ์ ์๋ ๊ฒ์ด ์ฅ์ ์ ๋๋ค. ํน์ ๋ณ๋์ 2D ์ขํ๋ฅผ ํํํด์ผ ํ ๋๋, ์ผ์ ๋ฒ์(์: 256๊ฐ)๋ก ์ ๊ทํํ๊ณ ์์ํ(quantization)ํจ์ผ๋ก์จ ํ ์คํธ ํ ํฐ์ฒ๋ผ ๋ค๋ฃฐ ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ ๊ฒ ์ ๋ฆฌ๋ SoM์ UI๋ฟ๋ง ์๋๋ผ, ๋ก๋ด ์กฐ์์์๋ ๋์ผํ๊ฒ ์ฌ์ฉํ ์ ์์ด, ๋ก๋ด์ด ์ํธ์์ฉํ ์ ์๋ ๋ฌผ์ฒด๋ ์ง์ ์ ๋งํฌ๋ฅผ ๋ฌ๊ณ , ๋ชจ๋ธ์ด ๊ทธ ์ง์ ์ ์ด๋ป๊ฒ ์กฐ์ํ ์ง ์์ธกํ๋๋ก ๋ง๋ญ๋๋ค. (์ฐธ๊ณ : GPT-4V์์ ํน์ถ๋ ์๊ฐ์ ๊ทผ๊ฑฐ(VG) ๊ธฐ๋ฅ์ ์ํ ํ์-์งํฉ(SoM) ํ๋กฌํํธ (Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V))
- Trace-of-Mark (ToM) for Action Planning: ToM์ ์๊ฐ์ถ(temporal dimension)์ ๊ณ ๋ คํ๋ค๋ ์ ์์ SoM์ ํ์ฅํ ๊ฐ๋ ์ ๋๋ค. ๋์์์ด๋ ์ฐ์๋ ๋ก๋ด ๊ด์ธก ํ๋ ์์์, ํน์ ์์ t์์์ ๋งํฌ๊ฐ ์ดํ t+1, t+2, โฆ ํ๋ ์์์ ์ด๋ป๊ฒ ์ด๋ํ๋์ง ์ถ์ ํ์ฌ, ๊ทธ ๊ถค์ (trajectory) ์์ฒด๊ฐ ์ก์ ์ ํด๋นํ๊ฒ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋์ด ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ฎ๊ธฐ๋ ์ฅ๋ฉด์ด ๋ด๊ธด ๋์์์ด ์์ ๋, ์ฒ์์ ์์ด ์์นํ ๊ณณ(๋งํฌ)์ ์ง์ ํ๊ณ , ์ดํ ํ๋ ์๋ค์์ ์์ด ์ง๋๊ฐ ์ขํ๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด๋ ๊ฒ ์ป์ โ์์ ๊ถค์ โ์ด ๊ณง ํ๋์ ์ํ์ค๋ก ๊ฐ์ฃผ๋ ์ ์์ผ๋ฉฐ, ๋ชจ๋ธ์ ์ด๋ฌํ ToM ์ ๋ณด๋ฅผ ํ์ตํ๋ฉด์, โ์ด๋ค ๋ฌผ์ฒด๊ฐ ์ด๋๋ก ์ฎ๊ฒจ์ง๋์งโ๋ฅผ ์์์ผ๋ก๋ถํฐ ์์ธกํ๊ณ , ๊ทธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๊ธฐ ์์ ์ด ๋ก๋ด ํ์ ์ด๋ป๊ฒ ์์ง์ด๋ฉด ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์์ง ์ถ๋ก ํ๊ฒ ๋ฉ๋๋ค.
๋ชจ๋ธ๋ง(Modeling)
์ต์ข ์ ์ผ๋ก๋, ์์์ ์ ์๋ SoM/ToM ํํ์ ์ฃผ์(annotated data)๋ค์ ๋ชจ๋ ๋ชจ์ ํ๋์ ๋์ฝ๋ ์ ์ฉ ์ธ์ด ๋ชจ๋ธ(Decoder-only LLM)์ ์ค์ฌ์ผ๋ก ํตํฉ ํ์ตํฉ๋๋ค. ์ผ๋ฐ์ ์ธ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM)์ฒ๋ผ, ๋จผ์ ConvNeXt ๊ฐ์ ์ด๋ฏธ์ง ์ธ์ฝ๋(Vision Encoder)๋ก ๋ชจ๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ํ ํฐ ์ํ์ค๋ก ๋ณํํ ๋ค์, ์ด๋ฅผ LLM์ ์ ๋ ฅ ํ ํฐ๊ณผ ๊ฒฐํฉํฉ๋๋ค. LLM์ ์์ฐ์ด์ ์ขํ(๋๋ ๋งํฌ ๋ฒํธ) ๋ฑ ๋ค์ํ ํํ์ ํ ํฐ์ ํ ์ค๋ก ์ด์ด๋ถ์ฌ์ ์ฒ๋ฆฌํฉ๋๋ค. ์ฆ, โ์ฌ์ฉ์ ๋ช ๋ น -> ์ด๋ฏธ์ง ํ ํฐ๋ค -> ๊ณผ๊ฑฐ ๋งฅ๋ฝโ์ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ , โ๋ค์์ ์ทจํด์ผ ํ ์ก์ ํ ํฐ ์ํ์ค -> ํ์ ์ ํ ์คํธ ์๋ตโ์ ์์ฐจ์ ์ผ๋ก ์์ฑํฉ๋๋ค. ํ์ต ์์๋ ํต์์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ๋ชฉ์ ํจ์(Next-Token Prediction)๋ฅผ ์ฌ์ฉํ๋, SoM/ToM ํ์์ ํฌํจํด ๋ชจ๋ ํํ์ ์ํ์ค ํ ํฐ์ ๋์์ ์์ธกํฉ๋๋ค.
์ด๋ ๊ฒ ํ๋ฉด UI ์กฐ์, ๋ก๋ด ์กฐ์, ์ผ๋ฐ ์ด๋ฏธ์ง ์ดํด(VQA ๋ฑ) ๋ชจ๋ ๊ฐ์ ๊ตฌ์กฐ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ถ๋ ฅ๋ค ๊ฐ์ ์ฐจ์ด๊ฐ ์๋ค๋ฉด, UI ์กฐ์์ ๊ฒฝ์ฐ์๋ 2D ์ก์ (ํด๋ฆญ ์ขํ)๋ฅผ ์์ฑํ๋๋ฐ ๋นํด, ๋ก๋ด ์กฐ์์ ์ต๋ 7-์์ ๋(DoF, Degree-of-Freedom)์ ์ขํ(์ด๋/ํ์ ๋ฐ ๊ทธ๋ฆฌํผ ๊ฐํ ์ฌ๋ถ(Gripper is Open or Not)) ๋ฑ์ ํ ์คํธํํ์ฌ ์ถ๋ ฅ์ ์์ฑํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ ํ์ต ๊ณผ์ ์์ ๋ค์ํ ๋๋ฉ์ธ์ ์ด์ง์ ์ธ ์ก์ ํํ์ด ์๋ก ์ด๊ธ๋ ํผ์ ์ ์ผ์ผํฌ ์ ์๋ ์ํ์ด ์์ผ๋, ์ ์๋ค์ SoM๊ณผ ToM์ด๋ผ๋ ๊ณตํต ํํ ๋ฐฉ์์ ํ์ฉํจ์ผ๋ก์จ ๊ทธ ๊ฐ๊ทน์ ํจ๊ณผ์ ์ผ๋ก ์ค์๋ค๊ณ ์์ฑํ๊ณ ์์ต๋๋ค.
์ฌ์ ํ์ต(Pretraining)
Magma์ ์ฌ์ ํ์ต์ ๋ฐ์ดํฐ ์์ง - SoM / ToM ์์ฑ - ์ฌ์ ํ์ต์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋จผ์ , Magma๋ 4์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ ํ์ต์ ์ํํฉ๋๋ค:
- UI ๋ด๋น๊ฒ์ด์ ๋ฐ์ดํฐ: SeeClick, Vision2UI ๋ฑ ์น/๋ชจ๋ฐ์ผ ์กฐ์ ๊ด๋ จ ๋ฐ์ดํฐ์ ์ผ๋ก ์๋ฐฑ๋ง ๊ฐ์ ์นํ์ด์ง/์ฑ ํ๋ฉด์ด ํฌํจ๋์ด ์์ต๋๋ค.
- ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ: Open-X-Embodiment ๋ฑ์์ ์ ๊ณต๋๋ ์คํ์์ค ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ก, 2D ๋๋ 3D ๊ณต๊ฐ์์ ์ค์ ๋ก๋ด ํ์ด ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ์ฅ๋ฉด๊ณผ ์ด์ ๋์ํ๋ ํ ์คํธ ์ค๋ช , ์กฐ์ ํ๋ผ๋ฏธํฐ(trajectory)๊ฐ ์์ต๋๋ค.
- ์ธ์คํธ๋ญ์ ๋น๋์ค: Epic-Kitchen, Ego4d, Something-Something v2 ๋ฑ, ์ฌ๋์ด ์ด๋ค ๋ชฉ์ ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค์ ํ๋ํ๋ ๋ชจ์ต์ ๋ด์ ๋์์์ ๊ฐ๋จํ ์๋ง ํน์ ๋ด๋ ์ด์ ์ด ๋ถ์ ํํ์ ๋๋ค. ์ฌ๊ธฐ์ ์ธ๊ฐ์ ์๋์์ด๋ ๊ฐ์ฒด ์ด๋ ๊ถค์ ์ ToM ์ฃผ์์ผ๋ก ํ์ฉํ ์ ์์ต๋๋ค.
- ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฐ์ดํฐ: LLaVA-1.5, ShareGPT4V ๊ฐ์ ํ ์คํธ-์ด๋ฏธ์ง ์์ ํฌํจํ ์ธ์คํธ๋ญ์ ํ๋ ๋ฐ์ดํฐ๊ฐ ์ฌ๊ธฐ์ ์ํฉ๋๋ค.
UI ๋ด๋น๊ฒ์ด์ ๋ฐ์ดํฐ๋ ์ฃผ๋ก 2D ์ขํ๋ง ๋ค๋ฃจ๋ฉฐ, โํด๋ฆญํ ์ ์๋ ์์(element)โ๊ฐ BBox(Bounding Box) ํํ๋ก ์ ๋ฆฌ๋์ด ์์ต๋๋ค. ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ๋ ์๊ณ์ด(trajectory) ํํ์ 6-DoF ์ก์ ํ ํฐ ์ํ์ค๊ฐ ์์ผ๋ฉฐ, ๊ฐ ์คํ ๋ง๋ค ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง๋๋ค. ์ธ์คํธ๋ญ์ ๋น๋์ค๋ ๊ธธ์ด๊ฐ ์ ์ด~์์ญ ์ด์ง๋ฆฌ ์งง์ ํด๋ฆฝ์ผ๋ก ์ชผ๊ฐ ๋ค, ๊ฐ ํ๋ ์์ ๋ฐ์์ ToM ์ถ์ ์ ์ํํฉ๋๋ค. ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฐ์ดํฐ๋ ๋ณ๋์ ์ก์ ์ ๋ณด ์์ด, ์ฃผ๋ก โ์ด ์ด๋ฏธ์ง์์ ๊ฐ๊ฐ ๋ช ๋ง๋ฆฌ ๋ณด์ด๋์ง?โ ๊ฐ์ ์ง์์๋ต ํํ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. Magma๋ ์ด์ฒ๋ผ ์๋ก ๋ค๋ฅธ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ๋ค์ ๋ชจ๋ ๋ฌถ์ด ํ์ตํ๊ธฐ ์ํด, ํด๋น ๋ฐ์ดํฐ์ ์ SoM/ToM ๋ฐฉ์์ผ๋ก ํต์ผํฉ๋๋ค.
์ดํ SoM(Set-of-Mark)์ ToM(Trace-of-Mark) ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ Magma ํ์ต์ ์ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค:
- SoM ์์ฑ: UI ๋ฐ์ดํฐ(์น, ๋ชจ๋ฐ์ผ)์ ๊ฒฝ์ฐ, DOM ํธ๋ฆฌ๋ ์๋๋ก์ด๋ ๋ทฐ ๊ณ์ธต(Android View Hierarchies)์ ๋ถ์ํด ํด๋ฆญ ๊ฐ๋ฅํ ์์๋ค์ BBox๋ฅผ ์ป์ ๋ค, ๊ฐ ์์์ 1, 2, 3โฆ ์์ผ๋ก ๋ฒํธ๋ฅผ ๋งค๊ฒจ ๋งํฌ๋ฅผ ๋ถ์ฌ์ ์ด๋ฏธ์ง์ ๊ฒน์ณ ๊ทธ๋ฆฝ๋๋ค. ๊ทธ๋ฐ ๋ค์, ๋ชจ๋ธ ํ์ต ์์๋ โ์ฌ์ฉ์ ๋ช ๋ น -> ๋งํฌ ํ์๋ ์ด๋ฏธ์ง -> ๋ชจ๋ธ์ ์ด๋ ๋ฒํธ๋ฅผ ํด๋ฆญํ ์ง ์์ธกโ ํํ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์์๋, ๋ก๋ด์ด ์กฐ์ ๊ฐ๋ฅํ ๋ฌผ์ฒด๋ ๊ทธ๋ฆฌํผ ์์น ๋ฑ์ ๋งํฌ๋ก ํ์ํ๊ณ , ๋ชจ๋ธ์ ๊ทธ ๋งํฌ๋ค์ ์ด๋ค ์์๋ก, ์ด๋ ๋ฐฉํฅ์ผ๋ก ์กฐ์ํ ์ง ํ ํฐํํ์ฌ ์์ธกํ๋๋ก ํฉ๋๋ค.
- ToM ์์ฑ: ์ธ์คํธ๋ญ์ ๋น๋์ค ๋๋ ๋ก๋ด ์กฐ์ ๋์์ ๋ฑ ์๊ฐ์ถ์ด ์๋ ๋ฐ์ดํฐ์๋ ToM์ ์ ์ฉํฉ๋๋ค. ์ฐ์ ์ฒซ ํ๋ ์์์ grid ๊ธฐ๋ฐ์ผ๋ก ์ด์ดํ ํฌ์ธํธ๋ค์ ์ฐ์ ๋ค, CoTracker์ ๊ฐ์ ์ต์ ์ถ์ ๋ชจ๋ธ์ ์จ์ ๋ค์ ํ๋ ์๋ค์์ ๊ฐ ํฌ์ธํธ๊ฐ ์ด๋๋ก ์ด๋ํ๋์ง๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด ๋, ๋ง์ฝ ์นด๋ฉ๋ผ ์์ง์์ด ํฌ๋ค๋ฉด, ํธ๋ชจ๊ทธ๋ํผ(homography) ๋ณํ ๋ฑ์ ํตํด ์ ์ญ ์ด๋์ ๋ณด์ ํฉ๋๋ค. ์ดํ ์ด๋ ๊ฑฐ๋ฆฌ๊ฐ ๋งค์ฐ ์์ ํฌ์ธํธ๋ ๋ฐฐ๊ฒฝ์ผ๋ก ๊ฐ์ฃผํด ์ ์ธํ๊ณ , ์ผ์ ์ด์ ์์ง์ด๋ ํฌ์ธํธ(์ฆ foreground, ์ฆ ์ค์ ๋ก ์กฐ์๋ ๋ฌผ์ฒด๋ ์๋์)๋ฅผ ์ค์ฌ์ผ๋ก K-Means ๋ฑ์ผ๋ก ๊ทธ๋ฃนํํ์ฌ ๋ํ ๋งํฌ๋ฅผ ์ ํํฉ๋๋ค. ์ด๋ ๊ฒ ์ป์ (๋งํฌ + ์๊ฐ ์์๋ณ ์ด๋ ์ขํ) ์ ๋ณด๋ฅผ ๋ชจ๋ธ์๊ฒ ์์ธกํ๋๋ก ์ํค๋ฉด, ๋ชจ๋ธ์ ๋น๋์ค๋ฅผ ๋ณด๊ณ ์ค์ ๋์ ์ํ์ค๊ฐ ์ด๋ป๊ฒ ์ ๊ฐ๋๋์ง ํ์ตํ๊ฒ ๋ฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก ์ด๋ ๊ฒ ์ ๋ฆฌ ๋ฐ ์์ฑํ ์ฝ 3,900๋ง ๊ฑด์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ์ฌ์ ํ์ต(Pre-training)์ ์ํํฉ๋๋ค. LLaMA-3(์ฝ 8B ํ๋ผ๋ฏธํฐ) ๊ฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ConvNeXt-XXLarge ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ ๋ด์ ๋ชจ๋ ๊ฐ์ค์น๋ค์ ์๋-ํฌ-์๋(End-to-End)๋ก ํ์ตํฉ๋๋ค. ํ์ต ๊ณผ์ ์ 3epoch ๋ด์ธ๋ก ์งํ๋๋ฉฐ, ๋น๊ต์ ๋ฎ์ ํ์ต๋ฅ (LR, Learning-Rate: 1e-5)๋ก ์งํํฉ๋๋ค. ๋ฐ์ดํฐ ์ข ๋ฅ๋ณ๋ก ๋ฏธ๋๋ฐฐ์น๋ฅผ ์์ด์ ํ์ตํ๋ฉฐ, ์์ ํ ์คํธ-์ด๋ฏธ์ง QA ๋ฐ์ดํฐ๋ UI ๋ฐ์ดํฐ, ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ, ๋น๋์ค ๋ฐ์ดํฐ๊ฐ ๊ณจ๊ณ ๋ฃจ ๋ค์ด๊ฐ๋๋ก ์ํ๋ง ๋น์จ์ ์กฐ์ ํฉ๋๋ค.
ํ์ต ๋ชฉํ๋ ๊ฐ๋จํ๊ฒ๋ ์ธ์ด ๋ชจ๋ธ(Decoder-Only Language Model)์ ํ๋ฅ ์ ์ต๋ํํ๋ ๋ฐฉ์, ์ฆ โ๋ค์ ํ ํฐ ์์ธกโ์ ๋๋ค. ์ฌ๊ธฐ์ ๋ค์ ํ ํฐ์ SoM/ToM์ ์ํด ํ์๋ ๋งํฌ ๋ฒํธ๋ ์ขํ, ๊ทธ๋ฆฌ๊ณ ํ ์คํธ ๋ต๋ณ ๋ฑ์ ํฌํจํฉ๋๋ค. ์คํ์ ์ผ๋ก, ์ด๋ ๊ฒ ๋ค์ํ ํํ์ ํ ํฐ์ด ํ๋์ LM์ ๋ค์์ด๋ ๊ฒ์ ๋ํดํด ๋ณด์ด์ง๋ง, SoM/ToM์ผ๋ก ์ธํด ์ก์ ํ ํฐ์ด ์ด๋ ์ ๋ ์ผ๊ด๋ ํํ๋ก ์ ๊ทํ๋์ด ์๊ธฐ ๋๋ฌธ์ ๊ฒฐ์ฝ ๋ถ๊ฐ๋ฅํ์ง๋ ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋, 2D ์ขํ๋ 7-์์ ๋(7-DoF)์ ๋ก๋ด ์ก์ ๋ 256๊ฐ ์ ๋์ ์ ๊ทํ๋ ์ฝ๋๋ถ(codebook) ๋ด์ ๋ฒ์๋ก ๋ณํ๋์ด ํ ์คํธ ํ ํฐ์ฒ๋ผ ์์ธกํ ์ ์์ต๋๋ค. ๊ฒฐ๊ตญ ํ์ต์ด ์ ์งํ๋๋ฉด ๋ชจ๋ธ์ ํน์ ์์ ์ ์ค๋ช ํ๋ ํ ์คํธ์, ๋์๋๋ ์ด๋ฏธ์ง/๋์์ ์ ๋ณด๋ฅผ ํจ๊ป ๋ณธ ๋ค์, โ์ด ์ฅ๋ฉด์์ ๋งํฌ #2๋ฅผ ์ก๊ณ ์ผ์ชฝ์ผ๋ก ์ด๋โ ํน์ โ์ด ์นํ์ด์ง์์ ๋งํฌ #10์ธ ๋ฒํผ์ ํด๋ฆญโ ๊ฐ์ ์์ ์์ ํ ์ก์ ์ํ์ค๋ฅผ ํ ํฐ์ผ๋ก ๋ง๋ค์ด๋ด๊ฒ ๋ฉ๋๋ค.
Magma์ ๊ฒฝ์ฐ, ๋ค์ํ ์คํ์์ SoM๊ณผ ToM ์์ด ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ ํฉ์น๋ ๊ฒ๋ณด๋ค ํจ์ฌ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์์ ์คํ์ ์ผ๋ก ๋ณด์์ต๋๋ค. ์ฆ, UI+๋ก๋ด+์์+์ด๋ฏธ์ง ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํ๊บผ๋ฒ์ ํ์ตํ ๋, SoM/ToM ๊ธฐ๋ฒ์ ์ ์ฉํ์ง ์์ผ๋ฉด ์๋ก ๋ค๋ฅธ ๋๋ฉ์ธ ๊ฐ ์ํธ๊ฐ์ญ์ด ํฌ๊ฒ ๋ฐ์ํ ์ ์์ต๋๋ค. ํ์ง๋ง SoM/ToM์ ์ ์ฉํ์ฌ ์์๊ณผ ๋ก๋ด, UI ๋๋ฉ์ธ์์์ ์ก์ ๋ผ๋ฒจ์ ์ ์ฌํ ํํ๋ก ํต์ผํ์ฌ, ๋ชจ๋ธ์ด ์ฝ๊ฒ ์ผ๋ฐํํ ์ ์๊ฒ ๋ง๋ญ๋๋ค.
์คํ ๊ฒฐ๊ณผ
UI ๋ด๋น๊ฒ์ด์ ์ฑ๋ฅ
UI ๋ด๋น๊ฒ์ด์ ๋ถ์ผ์์ Magma๋ ์น(Mind2Web)๊ณผ ๋ชจ๋ฐ์ผ(AITW) ํ๊ฒฝ ๋ชจ๋์์ ๊ธฐ์กด ๋ชจ๋ธ(GPT-4V, Qwen-VL, SeeClick, Fuyu ๋ฑ)์ ๋ฅ๊ฐํ๋ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ํนํ Mind2Web ์คํ์์, โCross-Website / Cross-Task / Cross-Domainโ๊ณผ ๊ฐ์ ๋ณต์กํ ์ค์ ์์๋ Element Selection Accuracy, Operation F1, Step Success Rate ์งํ๊ฐ ๋์ ์์น๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค. ๋ชจ๋ฐ์ผ ํ๊ฒฝ AITW์์๋ General, Install, GoogleApps, WebShopping ๋ฑ ๋ค์ํ ์ ํ์ ์์ ์ ๋ํด 60~70% ์ด์์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ฉฐ, GPT-4V + OmniParser๋ Fuyu-8B-GUI ๊ฐ์ ๊ฐ๋ ฅํ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋น์ทํ๊ฑฐ๋ ๊ทธ ์ด์์ ์ฑ๋ฅ์ ์ํํ์ต๋๋ค. ์ด๋ Set-of-Mark(SoM)์ ํตํด ํ๋ฉด์ ์ก์ ํ๋ณด(๋ฒํผ, ์ ๋ ฅ๋ ๋ฑ)๋ฅผ ๊ฐํธํ๊ฒ ์ ๊ทํํ๊ณ , ๋ชจ๋ธ์ด ํด๋น ํ๋ณด๋ฅผ ํ ์คํธ ํ ํฐ ํํ๋ก ์์ธกํ ์ ์๋๋ก ํ ๋๋ถ์ผ๋ก ํด์๋ฉ๋๋ค. ๋ํ, ์ฝ๊ฐ์ ํ์ธํ๋๋ง์ผ๋ก๋ ์ข์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ฏ๋ก, ์ค์ UI ์๋ํ ์์คํ ์๋ ์ถฉ๋ถํ ์์ฉ๋ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
๋ก๋ด ์กฐ์ ์ฑ๋ฅ
๋ก๋ด ์กฐ์ ์์ญ์์๋ SimplerEnv ์๋ฎฌ๋ ์ดํฐ(Bridge, Google Robot)์ ์ค์ ๋ก๋ด(WidowX 250) ๋ ๊ฐ์ง ํ๊ฒฝ์ ํตํด Magma์ ์ฑ๋ฅ์ ํ๊ฐํ์์ต๋๋ค. SimplerEnv ์คํ์์ Magma๋ โPick Coke Canโ, โOpen/Close Drawerโ, โPut Object in Drawerโ, โStack Blocksโ ๋ฑ ๋์ด๋ ์๋ ์์ ์ ์ ๋ก์ท(Zero-shot)์ผ๋ก ์ํํ์์๋, OpenVLA, RT-1-X ๋ฑ ๋ก๋ด ์ ์ฉ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ค์ WidowX ๋ก๋ดํ ํ๊ฒฝ์์๋, ๋จ 50๊ฐ ๋ด์ธ์ ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ธํ๋ํ ๋ค โํซ๋๊ทธ ์์์ง๋ฅผ ๋นต์ ๋ผ์ ๋ฃ๊ธฐโ, โ๋ฒ์ฏ์ ๋๋น๋ก ์ฎ๊ธฐ๊ธฐโ, โ์ฒ์ ํน์ ๋ฐฉํฅ์ผ๋ก ๋ฐ๊ธฐโ ๊ฐ์ ์์ ๋ค์ ์์ ์ ์ผ๋ก ์ํํ์ต๋๋ค.
OpenVLA ๋๋น ๋ ๋ฐฐ ๊ฐ๊น์ด ์ฑ๊ณต๋ฅ ์ ๋ณด์ธ ๊ณผ์ ๋ ์์์ผ๋ฉฐ, ๋ณด์ง ๋ชปํ๋ ์์ (Unseen task)์์๋ ๊ฝค ๋์ ์ ์๋ ฅ์ ๋ณด์๋ค. ์ด๋ ์์ยท๋น๋์ค์์ Trace-of-Mark(ToM)์ ํตํด ์ต๋ํ ์๊ณต๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ค์ ๋ก๋ด ์กฐ์๊น์ง ํจ๊ณผ์ ์ผ๋ก ์ ์ด๋์์์ ์๋ฏธํฉ๋๋ค.
๊ณต๊ฐ ์ถ๋ก (Spatial Reasoning) ํ๊ฐ
Magma๋ ์์ ๊ณต๊ฐ ์ถ๋ก ๋ฒค์น๋งํฌ(VSR, BLINK, SpatialEval)์์๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ๊ธฐ์กด์ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(์: LLaVA, Qwen-VL, GPT-4V)์ด ๋ณต์กํ ์ขํ ์ง๋ฌธ์ด๋ โ์ผ์ชฝ์์ ๋ช ๋ฒ์งธ ์นธโ, โ์์์ ๋ ๋ฒ์งธ ์ดโ ๊ฐ์ ์ง์์์ ์ข ์ข ํ๋ฆฐ ๋ต๋ณ์ ๋ด๋ ๋ฐ๋ฉด, Magma๋ SoM/ToM ๊ธฐ๋ฐ ํ์ต ๋๋ถ์ ์ ํํ ์์น ์ ๋ณด๋ฅผ ํ์ ํ๊ณ ๋๋ตํ๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ค์ ๋ก BLINK์ SpatialEval์ ์ธ๋ถ ์งํ์์ ํ ๋ชจ๋ธ ๋๋น ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ, UIยท๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ ๊ณผ์ ์์ ์ต๋ํ ์ ๊ตํ ๊ณต๊ฐ ์ธ์์ด ์ผ๋ฐ VQA ๋ฌธ์ ์๋ ์ด๋์ ์ค๋ค๋ ์ฌ์ค์ด ํ์ธ๋์์ต๋๋ค. ์ด๋ฌํ ์ฑ๋ฅ ๋๋ถ์, ๋จ์ ์ด๋ฏธ์ง๋ฅผ ์์ ํ๋ ์์ค์ ๋์ด ์ ํํ ์ขํ์ ์๋์ ์์น๋ฅผ ์ถ๋ก ํ๋ ์ํฉ์๋ ๋์ ๊ฐ๋ฅํจ์ด ์ ์ฆ๋์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก Magma๋ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ํฉ์์ โ์๊ฐ์ ๊ณต๊ฐ ์ดํดโ๋ฅผ ํ์๋ก ํ๋ ๋ฌธ์ ๋ฅผ ์์ ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ ์ ์ด ๋ถ๊ฐ๋ฉ๋๋ค.
๋น๋์ค ๊ธฐ๋ฐ QA(Video QA) ์ฑ๋ฅ
๋น๋์ค ์ดํด๊ฐ ํ์ํ QA ํ์คํฌ์์๋ Magma๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์์ปจ๋ Next-QA์ Short/Medium/Long ์์ญ ์ ์ฒด์์ ๋์ ์ ์๋ฅผ ํ๋ํ์๊ณ , IntentQA์์๋ ์ฝ 88.6%๋ผ๋ ์ธ์์ ์ธ ์ ํ๋๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค. VideoMME์ Action Prediction, Action Sequence, Action Localization ๊ฐ์ ์ธ๋ถ ๊ณผ์ ์์๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ, ์์ ์ ์ธ๋ฌผ์ด๋ ๊ฐ์ฒด์ ์์ง์์ ์ ํฌ์ฐฉํ๋ค๋ ์ ์ด ๋ถ๊ฐ๋์์ต๋๋ค. GPT-4V๋ Video-Llama2 ๋ฑ ๊ฑฐ๋ยทํ์ํ ๋ชจ๋ธ๊ณผ ์ผ๋ถ ํญ๋ชฉ์์ ๋น๋ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, ์๋์ ์ผ๋ก ์ ์ ์์ ํ๋ ์๋ง์ผ๋ก๋ ์ถฉ๋ถํ ํ์ต ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ ์ฅ์ ์ด ํ์ธ๋์์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ Trace-of-Mark(ToM)์ผ๋ก ์ถ์ ๋ ์๊ฐ์ ยท๋์ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ผ์ ํ๋์ด ๋ด๊ธด ๋์์์ ์ดํดํ๋ ๋ฐ์๋ ํฌ๊ฒ ๊ธฐ์ฌํจ์ ์์ฌํฉ๋๋ค.
๊ฒฐ๋ก
Magma๋ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ(์ด๋ฏธ์ง, ๋์์, ์ธ์ด ๋ฑ)์ ํด์ํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ค์ ํ๊ฒฝ์์์ ํ๋๊น์ง ๊ฒฐ์ ํ๋ ์ต์ด์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๋ก ์ ์๋์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ Vision-Language(VL) ๋ชจ๋ธ์ ๋์ด, UI(๊ทธ๋ํฝ ์ฌ์ฉ์ ์ธํฐํ์ด์ค) ๋ฐ ๋ก๋ด ์กฐ์ ๋ฑ ๋ฌผ๋ฆฌ์ ยท๋์งํธ ํ๊ฒฝ์์ ์ํํด์ผ ํ๋ ์์ด์ ํธํ ํ์คํฌ๊น์ง ํ์ฅ๋์๋ค๋ ์ ์์ ํฐ ํน์ง์ ๊ฐ์ง๋๋ค.
ํนํ, ๊ฐ๋ฐ ๊ณผ์ ์์๋ ์ด๋ฏธ์ง, ๋์์, ๋ก๋ด ์์ฐ, UI ์คํฌ๋ฆฐ์ท ๋ฑ ๋ค์ํ ํํ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์์ผ๋ฉฐ, ์ด์ง์ ์ธ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด Set-of-Mark(SoM)๊ณผ Trace-of-Mark(ToM)์ด๋ผ๋ ๋ ๊ฐ์ง ๊ธฐ๋ฒ์ ์๋กญ๊ฒ ๋์ ํ์์ต๋๋ค. SoM์ ์ ์ ์ธ ์ด๋ฏธ์ง๋ ํ๋ฉด์์ ์ก์ ๊ฐ๋ฅ ์ง์ ์ ํ์ํ์ฌ ๋ชจ๋ธ์ด ์ด๋ฅผ ํ ์คํธ ํ ํฐ์ผ๋ก ์์ธกํ ์ ์๋๋ก ์ง์ํ๋ฉฐ, ToM์ ๋น๋์ค๋ ์ฐ์๋ ๊ด์ธก์์ ๊ฐ์ฒด์ ์ด๋ ๊ถค์ ์ ์ถ์ถํ์ฌ ์๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๋ ์ญํ ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด Magma๋ ์ธ์ด์ ยท๊ณต๊ฐ์ ยท์๊ฐ์ ์ง์์ ํตํฉ์ ์ผ๋ก ํ์ตํ๋ฉฐ, UI ๋ค๋น๊ฒ์ด์ ๊ณผ ๋ก๋ด ์กฐ์ ๋ฑ์ ์์ญ์์ ๊ธฐ์กด๋ณด๋ค ํจ์ฌ ๋์ ์ ์๋ ฅ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด์ ๋ฐ๋ผ, ๊ธฐ์กด์๋ ์น ๋ธ๋ผ์ฐ์ ์๋ํ, ๋ชจ๋ฐ์ผ ์ฑ ์กฐ์, ๋ก๋ด ์กฐ์, ์์ ์ดํด ๋ฑ์ด ๊ฐ๊ฐ์ ๋ชจ๋ธ๋ก ๋ถ๋ฆฌ๋์ด ์ํ๋์์ผ๋, Magma๋ ํ๋์ ์ํคํ ์ฒ๋ฅผ ํตํด ์ด๋ฌํ ๋ชจ๋ ์์ญ์ ํฌ๊ดํ ์ ์๊ฒ ๋์์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, Magma๋ ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ํ๋ ์์ธก ์ฌ์ด์ ๊ฐ๊ทน์ ์ขํ๋ฉฐ, ์ค์ ํ๊ฒฝ์์ ์ ์ฐํ๊ณ ๋ฒ์ฉ์ ์ธ ์์ด์ ํธ๋ฅผ ๊ตฌํํ๋ ๋ฐ ํ ๊ฑธ์ ๋ ๊ฐ๊น์์ก์ต๋๋ค. ๋ ผ๋ฌธ์์๋ Magma๊ฐ BLINK ๋ฐ VideoMME์ ๊ฐ์ ๋ณตํฉ์ ์ธ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, UI ๋ด๋น๊ฒ์ด์ (Mind2Web, AITW), ๋ก๋ด ์กฐ์(SimplerEnv, ์ค์ WidowX ๋ก๋ด) ๋ฑ์ ๋ค์ํ ํ์คํฌ์์๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ๋ ์ ์์์ ์คํ์ ์ผ๋ก ๊ฒ์ฆํ์์ต๋๋ค. ์ด๋ฌํ ์ฑ๊ณผ๋ SoM๊ณผ ToM ๊ธฐ๋ฒ์ด ๋จ์ํ ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒฐํฉ์ ๋์ด ์ค์ ๋ฌผ์ฒด๋ ๋ฒํผ, ์๋์ ๋ฑ์ ๊ตฌ์ฒด์ ์ผ๋ก ์๋ณํ๊ณ ์ถ์ ํ๋ ๋ฐ ๊ธฐ์ฌํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ํ, Magma์ ๋ชจ๋ธ ์ํคํ ์ฒ, ์ฝ๋, ๋ฐ์ดํฐ๋ ๊ณต๊ฐ๋์ด ์ฐ๊ตฌ์ ์ฌํ์ฑ๊ณผ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋์์ผ๋ฉฐ, ํฅํ ๋ก๋ด, AR/VR, ๋ฉํ๋ฒ์ค ๋ฑ์ ๋ค์ํ ์์ฉ ๋ถ์ผ๋ก ํ์ฅ๋ ๊ฐ๋ฅ์ฑ์ ์ด์ด๋์์ต๋๋ค. ์์ผ๋ก๋ ๋์ฑ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ๊ณผ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ํ์ฅํด ๋๊ฐ๋ฉฐ, ์์ ์ฑ๊ณผ ์์ ์ฑ, ๊ทธ๋ฆฌ๊ณ ์ค๋ฆฌ์ ์ธก๋ฉด๊น์ง ๊ณ ๋ คํ ์ฐ๊ตฌ๊ฐ ์ง์์ ์ผ๋ก ์ด๋ฃจ์ด์ ธ์ผ ํ ๊ฒ์ ๋๋ค.
Magma ๋
ผ๋ฌธ ํํ์ด์ง
https://microsoft.github.io/Magma/
Magma: A Foundation Model for Multimodal AI Agents ๋
ผ๋ฌธ
Magma GitHub ์ ์ฅ์
์ด ๊ธ์ GPT ๋ชจ๋ธ๋ก ์ ๋ฆฌํ ๊ธ์ ๋ฐํ์ผ๋ก ํ ๊ฒ์ผ๋ก, ์๋ฌธ์ ๋ด์ฉ ๋๋ ์๋์ ๋ค๋ฅด๊ฒ ์ ๋ฆฌ๋ ๋ด์ฉ์ด ์์ ์ ์์ต๋๋ค. ๊ด์ฌ์๋ ๋ด์ฉ์ด์๋ผ๋ฉด ์๋ฌธ๋ ํจ๊ป ์ฐธ๊ณ ํด์ฃผ์ธ์! ์ฝ์ผ์๋ฉด์ ์ด์ํ๊ฑฐ๋ ์๋ชป๋ ๋ด์ฉ์ ๋ฐ๊ฒฌํ์๋ฉด ๋ง๊ธ๋ก ์๋ ค์ฃผ์๊ธฐ๋ฅผ ๋ถํ๋๋ฆฝ๋๋ค.
ํ์ดํ ์น ํ๊ตญ ์ฌ์ฉ์ ๋ชจ์
์ด ์ ๋ฆฌํ ์ด ๊ธ์ด ์ ์ฉํ์
จ๋์? ํ์์ผ๋ก ๊ฐ์
ํ์๋ฉด ์ฃผ์ ๊ธ๋ค์ ์ด๋ฉ์ผ
๋ก ๋ณด๋ด๋๋ฆฝ๋๋ค! (๊ธฐ๋ณธ์ Weekly์ง๋ง Daily๋ก ๋ณ๊ฒฝ๋ ๊ฐ๋ฅํฉ๋๋ค.)
์๋
์ชฝ์ ์ข์์
๋ฅผ ๋๋ฌ์ฃผ์๋ฉด ์๋ก์ด ์์๋ค์ ์ ๋ฆฌํ๊ณ ๊ณต์ ํ๋๋ฐ ํ์ด ๋ฉ๋๋ค~