๐Ÿค– Magma, Microsoft๊ฐ€ ๊ณต๊ฐœํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ ๊ธฐ์ดˆ ๋ชจ๋ธ(Foundation Model)

Magma ์—ฐ๊ตฌ ์†Œ๊ฐœ

๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ ๋ฆฌ์„œ์น˜(Microsoft Research)์—์„œ ์ƒˆ๋กœ์šด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ์—์ด์ „ํŠธ ๋ชจ๋ธ, Magma๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ AI ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€, ๋˜๋Š” ํŠน์ •ํ•œ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๋™์ž‘ํ–ˆ์ง€๋งŒ, Magma๋Š” ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ํ–‰๋™(Action)๊นŒ์ง€ ํ†ตํ•ฉ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ณ  ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์ดˆ์˜ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(Foundation Model)์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋งค์นญ(Cross-Modal Retrieval) ํ˜น์€ ๋น„๋””์˜ค ์บก์…”๋‹(Video Captioning)๊ณผ ๊ฐ™์€ ์ •์ ์ธ ์ž‘์—…์— ์ง‘์ค‘๋˜์–ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Magma๋Š” ๋‹จ์ˆœํ•œ ์ดํ•ด๋ฅผ ๋„˜์–ด, ํŠน์ • ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํ–‰๋™(Action)๊นŒ์ง€ ์ง์ ‘ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, Magma๋Š” ๋‹จ์ˆœํžˆ ํ™”๋ฉด์— ๋‚˜ํƒ€๋‚œ UI ์š”์†Œ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์›น์‚ฌ์ดํŠธ์—์„œ ๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜๊ณ , ์–‘์‹์„ ์ž‘์„ฑํ•˜๋Š” ๋“ฑ์˜ UI ์กฐ์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋“ฑ์˜ ํ–‰๋™(Action)๊นŒ์ง€ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋กœ๋ด‡ ์กฐ์ž‘(Robotics Manipulation)๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ๋„ ๋กœ๋ด‡ ํŒ”์ด ํŠน์ • ๋ฌผ๊ฑด์„ ์žก๊ณ  ์ด๋™์‹œํ‚ค๋Š” ํ–‰๋™์„ ๊ณ„ํšํ•˜๊ณ  ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์„ ์—ผ๋‘์— ๋‘๊ณ  ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์ง• ๋•๋ถ„์— Magma๋Š” ๋””์ง€ํ„ธ ํ™˜๊ฒฝ(์˜ˆ: ์›น ํƒ์ƒ‰)๊ณผ ๋ฌผ๋ฆฌ์  ํ™˜๊ฒฝ(์˜ˆ: ๋กœ๋ด‡ ์กฐ์ž‘) ๋ชจ๋‘์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

Multimodal Agentic Model, Magma ์†Œ๊ฐœ

๋ฌธ์ œ ์ •์˜(Problem Definition)

Magma๋Š” ๋‹จ์ˆœํžˆ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋””์ง€ํ„ธ ๋ฐ ๋ฌผ๋ฆฌ์  ํ™˜๊ฒฝ์—์„œ ์‹ค์ œ ํ–‰๋™์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” AI ์—์ด์ „ํŠธ๋ฅผ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด Magma๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด, ํ–‰๋™ ์˜ˆ์ธก, ๊ณต๊ฐ„์  ์ถ”๋ก  ๋“ฑ์„ ํฌํ•จํ•œ ์—์ด์ „ํŠธ ๋ชจ๋ธ๋ง(Agentic Modeling) ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋จผ์ € Magma ๋ชจ๋ธ์ด ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋ฌธ์ œ๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ (Vision-Language Models, VLMs)๋กœ ์„ค๊ณ„๋˜์–ด ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ํ•จ๊ป˜ ์ดํ•ดํ•˜๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ํŠน์ •ํ•œ ํ™˜๊ฒฝ์—์„œ ๋™์ž‘ํ•˜๋„๋ก ์„ค๊ณ„๋˜์ง€ ์•Š์œผ๋ฉฐ, UI ์กฐ์ž‘์ด๋‚˜ ๋กœ๋ด‡ ์กฐ์ž‘๊ณผ ๊ฐ™์€ ์‹ค์ œ ํ–‰๋™์„ ์ˆ˜ํ–‰ํ•˜๋Š”๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Magma๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์™€ ํ–‰๋™ ์˜ˆ์ธก์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ๋ฌธ์ œ ์ •์˜๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค:

  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด (Multimodal Understanding): Magma๋Š” ๋””์ง€ํ„ธ ํ™˜๊ฒฝ(UI ๋ฐ ์›น ํŽ˜์ด์ง€)๊ณผ ๋ฌผ๋ฆฌ์  ํ™˜๊ฒฝ(๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ ์‹ค์ œ ์„ธ๊ณ„)์—์„œ ์ œ๊ณต๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋น„๋””์˜ค ๋ฐ ์ธํ„ฐ๋ž™์…˜ ๋ฐ์ดํ„ฐ๋„ ํ•™์Šตํ•˜์—ฌ ์‹œ๊ฐ„์  ๊ด€๊ณ„(Temporal Relationships)๋ฅผ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถฐ์•ผ ํ•ฉ๋‹ˆ๋‹ค.

  • ํ–‰๋™ ์˜ˆ์ธก (Multimodal Action Prediction): ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ตฌ์ฒด์ ์ธ ํ–‰๋™(Action)์„ ์˜ˆ์ธกํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, UI ๋‚ด์—์„œ โ€œํ˜ธํ…” ์˜ˆ์•ฝํ•˜๊ธฐโ€๋ผ๋Š” ๋ช…๋ น์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ๊ฒ€์ƒ‰ ๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜๊ณ , ์ ์ ˆํ•œ ํ•ญ๋ชฉ์„ ์„ ํƒํ•˜๋Š” ์—ฐ์†์ ์ธ ์•ก์…˜ ์‹œํ€€์Šค(Action Sequence)๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์—์„œ ๋‹จ์ˆœํžˆ โ€œ์ปต์„ ์žก์•„๋ผโ€๋ผ๋Š” ๋ช…๋ น์„ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ํŒ”์˜ ๊ฐ๋„๋ฅผ ์กฐ์ •ํ•˜๊ณ , ์ง‘๊ฒŒ๋ฅผ ์—ด๊ณ  ๋‹ซ์œผ๋ฉฐ, ์ ์ ˆํ•œ ํž˜์„ ๊ฐ€ํ•˜๋Š” ๋“ฑ์˜ ์„ธ๋ถ€์ ์ธ ํ–‰๋™์„ ์ง์ ‘ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  • ๊ณต๊ฐ„์  ์ดํ•ด์™€ ์‹คํ–‰ (Spatial and Temporal Intelligence): Magma๋Š” ๊ณต๊ฐ„์ ์œผ๋กœ ๋ฌผ์ฒด์™€ ํ™˜๊ฒฝ์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์ฑ…์ƒ์„ ์ •๋ฆฌํ•ดโ€๋ผ๋Š” ๋ช…๋ น์„ ๋ฐ›์œผ๋ฉด ์ฑ…์ƒ์˜ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ , ๋ฌผ๊ฑด์„ ์ •๋ฆฌํ•˜๋Š” ๋…ผ๋ฆฌ์ ์ธ ์ˆœ์„œ๋ฅผ ๊ณ„ํšํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด, Magma๋Š” Set-of-Mark (SoM)๊ณผ Trace-of-Mark (ToM) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ •ํ•œ ํ–‰๋™์ด ํ•„์š”ํ•œ ๋Œ€์ƒ(์˜ˆ: ํด๋ฆญ ๊ฐ€๋Šฅํ•œ UI ๋ฒ„ํŠผ, ๋กœ๋ด‡์ด ์ง‘์„ ์ˆ˜ ์žˆ๋Š” ๋ฌผ์ฒด ๋“ฑ)์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•๋ก (Method)

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—์ด์ „ํŠธ(Multimodal Agent)๋ฅผ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•ด Magma๋Š” ์‚ฌ์ „ ํ•™์Šต(Pretraining)๊ณผ ๋ฏธ์„ธ ์กฐ์ •(Finetuning)์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋””์ง€ํ„ธ UI ๋‚ด๋น„๊ฒŒ์ด์…˜, ๋กœ๋ด‡ ์กฐ์ž‘, ์˜์ƒ ์ดํ•ด ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์—์„œ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ํ†ตํ•ฉ ํ•™์Šต: Magma๋Š” ์›น UI ๋ฐ์ดํ„ฐ, ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ, ์˜์ƒ ๊ธฐ๋ฐ˜ ํ–‰๋™ ๋ฐ์ดํ„ฐ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM)๊ณผ ๋‹ฌ๋ฆฌ, Magma๋Š” ํ…์ŠคํŠธ ๋ฐ ์ด๋ฏธ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ–‰๋™(Action) ๋ฐ ์‹œ๊ฐ„(Time) ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š” ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, ๋ชจ๋ธ์ด ๋‹จ์ˆœํžˆ ์ •์ ์ธ ์ •๋ณด๋งŒ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์‹œ๊ฐ„์  ๋ณ€ํ™”(Temporal Change)์™€ ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ(Interaction with Environment)์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ํ–‰๋™ ์˜ˆ์ธก์„ ์œ„ํ•œ ๊ฐ•ํ™” ํ•™์Šต ๊ธฐ๋ฒ•: ์ผ๋ฐ˜์ ์ธ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM)๊ณผ ๋‹ฌ๋ฆฌ, Magma๋Š” ํŠน์ •ํ•œ ํ–‰๋™์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ํ–‰๋™ ์˜ˆ์ธก์„ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning, RL) ๊ธฐ๋ฒ•์„ ์ผ๋ถ€ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. UI ๋‚ด๋น„๊ฒŒ์ด์…˜์˜ ๊ฒฝ์šฐ, ์˜ฌ๋ฐ”๋ฅธ ๋ฒ„ํŠผ์„ ํด๋ฆญํ–ˆ์„ ๋•Œ ๋ณด์ƒ์„ ์ฃผ๊ณ , ์ž˜๋ชป๋œ ํ–‰๋™์„ ํ–ˆ์„ ๋•Œ ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์กฐ์ž‘์˜ ๊ฒฝ์šฐ์—๋Š” ๋ชฉํ‘œ์— ๋„๋‹ฌํ•  ํ™•๋ฅ ์„ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ–‰๋™์„ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • Set-of-Mark (SoM) for Action Grounding: SoM ๊ธฐ๋ฒ•์€ ์ •์ ์ธ ์ด๋ฏธ์ง€๋ฅผ ๋Œ€์ƒ์œผ๋กœ, ๋ชจ๋ธ์ด ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ์•ก์…˜ ํ›„๋ณด๋“ค์„ ์‹œ๊ฐ์ ์œผ๋กœ ํ‘œ์‹œํ•˜๊ณ , ์ด๋ฅผ ํ…์ŠคํŠธ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋ชจ๋ฐ”์ผ ์•ฑ ํ™”๋ฉด์— ์žˆ๋Š” ์—ฌ๋Ÿฌ ๋ฒ„ํŠผ์ด ์žˆ์„ ๋•Œ, ๊ฐ๊ฐ์„ ๊ตฌ๋ถ„ํ•ด์„œ ๋ฒˆํ˜ธ(1, 2, 3, โ€ฆ)๋ฅผ ํ• ๋‹นํ•œ ๋’ค, ํ•ด๋‹น ์œ„์น˜์— ๋ฐ•์Šค๋‚˜ ๋งˆํฌ๋ฅผ ๊ทธ๋ ค๋„ฃ๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ชจ๋ธ์ด โ€œ์–ด๋–ค ๋ฒ„ํŠผ์„ ํƒญํ•  ๊ฒƒ์ธ์ง€โ€ ์˜ˆ์ธกํ•  ๋•Œ, ๋‹จ์ˆœํžˆ โ€œ๋งˆํฌ #2๋ฅผ ํด๋ฆญโ€ ์‹์œผ๋กœ ์˜ˆ์ธกํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ๋Š” 2D ์ขŒํ‘œ๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•ด์•ผ ํ•˜์ง€๋งŒ, ์ขŒํ‘œ๊ฐ’ ์ž์ฒด๋ฅผ ํ† ํฐํ™”ํ•˜๊ธฐ ์–ด๋ ต๊ณ  ์˜ค์ฐจ ๊ฐ์ˆ˜ ํญ๋„ ์ปค์ง€๋ฏ€๋กœ, ์—ฌ๋Ÿฌ ํ›„๋ณด ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜๋Š” ๋ฌธ์ œ๋กœ ๋ฐ”๊ฟ” ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด ์žฅ์ ์ž…๋‹ˆ๋‹ค. ํ˜น์€ ๋ณ„๋„์˜ 2D ์ขŒํ‘œ๋ฅผ ํ‘œํ˜„ํ•ด์•ผ ํ•  ๋•Œ๋„, ์ผ์ • ๋ฒ”์œ„(์˜ˆ: 256๊ฐœ)๋กœ ์ •๊ทœํ™”ํ•˜๊ณ  ์–‘์žํ™”(quantization)ํ•จ์œผ๋กœ์จ ํ…์ŠคํŠธ ํ† ํฐ์ฒ˜๋Ÿผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ •๋ฆฌ๋œ SoM์€ UI๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋กœ๋ด‡ ์กฐ์ž‘์—์„œ๋„ ๋™์ผํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์–ด, ๋กœ๋ด‡์ด ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌผ์ฒด๋‚˜ ์ง€์ ์— ๋งˆํฌ๋ฅผ ๋‹ฌ๊ณ , ๋ชจ๋ธ์ด ๊ทธ ์ง€์ ์„ ์–ด๋–ป๊ฒŒ ์กฐ์ž‘ํ• ์ง€ ์˜ˆ์ธกํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค. (์ฐธ๊ณ : GPT-4V์—์„œ ํŠน์ถœ๋‚œ ์‹œ๊ฐ์  ๊ทผ๊ฑฐ(VG) ๊ธฐ๋Šฅ์„ ์œ„ํ•œ ํ‘œ์‹-์ง‘ํ•ฉ(SoM) ํ”„๋กฌํ”„ํŠธ (Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V))

  • Trace-of-Mark (ToM) for Action Planning: ToM์€ ์‹œ๊ฐ„์ถ•(temporal dimension)์„ ๊ณ ๋ คํ•œ๋‹ค๋Š” ์ ์—์„œ SoM์„ ํ™•์žฅํ•œ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๋™์˜์ƒ์ด๋‚˜ ์—ฐ์†๋œ ๋กœ๋ด‡ ๊ด€์ธก ํ”„๋ ˆ์ž„์—์„œ, ํŠน์ • ์‹œ์  t์—์„œ์˜ ๋งˆํฌ๊ฐ€ ์ดํ›„ t+1, t+2, โ€ฆ ํ”„๋ ˆ์ž„์—์„œ ์–ด๋–ป๊ฒŒ ์ด๋™ํ•˜๋Š”์ง€ ์ถ”์ ํ•˜์—ฌ, ๊ทธ ๊ถค์ (trajectory) ์ž์ฒด๊ฐ€ ์•ก์…˜์— ํ•ด๋‹นํ•˜๊ฒŒ ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฌ๋žŒ์ด ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ์˜ฎ๊ธฐ๋Š” ์žฅ๋ฉด์ด ๋‹ด๊ธด ๋™์˜์ƒ์ด ์žˆ์„ ๋•Œ, ์ฒ˜์Œ์— ์†์ด ์œ„์น˜ํ•œ ๊ณณ(๋งˆํฌ)์„ ์ง€์ •ํ•˜๊ณ , ์ดํ›„ ํ”„๋ ˆ์ž„๋“ค์—์„œ ์†์ด ์ง€๋‚˜๊ฐ„ ์ขŒํ‘œ๋ฅผ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ โ€˜์†์˜ ๊ถค์ โ€™์ด ๊ณง ํ–‰๋™์˜ ์‹œํ€€์Šค๋กœ ๊ฐ„์ฃผ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ ToM ์ •๋ณด๋ฅผ ํ•™์Šตํ•˜๋ฉด์„œ, โ€œ์–ด๋–ค ๋ฌผ์ฒด๊ฐ€ ์–ด๋””๋กœ ์˜ฎ๊ฒจ์ง€๋Š”์ง€โ€๋ฅผ ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ์˜ˆ์ธกํ•˜๊ณ , ๊ทธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž๊ธฐ ์ž์‹ ์ด ๋กœ๋ด‡ ํŒ”์„ ์–ด๋–ป๊ฒŒ ์›€์ง์ด๋ฉด ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์„์ง€ ์ถ”๋ก ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ๋ง(Modeling)

์ตœ์ข…์ ์œผ๋กœ๋Š”, ์œ„์—์„œ ์ •์˜๋œ SoM/ToM ํ˜•ํƒœ์˜ ์ฃผ์„(annotated data)๋“ค์„ ๋ชจ๋‘ ๋ชจ์•„ ํ•˜๋‚˜์˜ ๋””์ฝ”๋” ์ „์šฉ ์–ธ์–ด ๋ชจ๋ธ(Decoder-only LLM)์„ ์ค‘์‹ฌ์œผ๋กœ ํ†ตํ•ฉ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM)์ฒ˜๋Ÿผ, ๋จผ์ € ConvNeXt ๊ฐ™์€ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”(Vision Encoder)๋กœ ๋ชจ๋“  ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•œ ๋‹ค์Œ, ์ด๋ฅผ LLM์˜ ์ž…๋ ฅ ํ† ํฐ๊ณผ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. LLM์€ ์ž์—ฐ์–ด์™€ ์ขŒํ‘œ(๋˜๋Š” ๋งˆํฌ ๋ฒˆํ˜ธ) ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ํ† ํฐ์„ ํ•œ ์ค„๋กœ ์ด์–ด๋ถ™์—ฌ์„œ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, โ€œ์‚ฌ์šฉ์ž ๋ช…๋ น -> ์ด๋ฏธ์ง€ ํ† ํฐ๋“ค -> ๊ณผ๊ฑฐ ๋งฅ๋ฝโ€์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ณ , โ€œ๋‹ค์Œ์— ์ทจํ•ด์•ผ ํ•  ์•ก์…˜ ํ† ํฐ ์‹œํ€€์Šค -> ํ•„์š” ์‹œ ํ…์ŠคํŠธ ์‘๋‹ตโ€์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ์—๋Š” ํ†ต์ƒ์ ์ธ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ชฉ์ ํ•จ์ˆ˜(Next-Token Prediction)๋ฅผ ์‚ฌ์šฉํ•˜๋˜, SoM/ToM ํ‘œ์‹์„ ํฌํ•จํ•ด ๋ชจ๋“  ํ˜•ํƒœ์˜ ์‹œํ€€์Šค ํ† ํฐ์„ ๋™์‹œ์— ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด UI ์กฐ์ž‘, ๋กœ๋ด‡ ์กฐ์ž‘, ์ผ๋ฐ˜ ์ด๋ฏธ์ง€ ์ดํ•ด(VQA ๋“ฑ) ๋ชจ๋‘ ๊ฐ™์€ ๊ตฌ์กฐ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ถœ๋ ฅ๋“ค ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค๋ฉด, UI ์กฐ์ž‘์˜ ๊ฒฝ์šฐ์—๋Š” 2D ์•ก์…˜(ํด๋ฆญ ์ขŒํ‘œ)๋ฅผ ์ƒ์„ฑํ•˜๋Š”๋ฐ ๋น„ํ•ด, ๋กœ๋ด‡ ์กฐ์ž‘์€ ์ตœ๋Œ€ 7-์ž์œ ๋„(DoF, Degree-of-Freedom)์˜ ์ขŒํ‘œ(์ด๋™/ํšŒ์ „ ๋ฐ ๊ทธ๋ฆฌํผ ๊ฐœํ ์—ฌ๋ถ€(Gripper is Open or Not)) ๋“ฑ์„ ํ…์ŠคํŠธํ™”ํ•˜์—ฌ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ์ด์งˆ์ ์ธ ์•ก์…˜ ํ‘œํ˜„์ด ์„œ๋กœ ์–ด๊ธ‹๋‚˜ ํ˜ผ์„ ์„ ์ผ์œผํ‚ฌ ์ˆ˜ ์žˆ๋Š” ์œ„ํ—˜์ด ์žˆ์œผ๋‚˜, ์ €์ž๋“ค์€ SoM๊ณผ ToM์ด๋ผ๋Š” ๊ณตํ†ต ํ‘œํ˜„ ๋ฐฉ์‹์„ ํ™œ์šฉํ•จ์œผ๋กœ์จ ๊ทธ ๊ฐ„๊ทน์„ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์˜€๋‹ค๊ณ  ์ž‘์„ฑํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์‚ฌ์ „ ํ•™์Šต(Pretraining)

Magma์˜ ์‚ฌ์ „ํ•™์Šต์€ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ - SoM / ToM ์ƒ์„ฑ - ์‚ฌ์ „ ํ•™์Šต์˜ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋จผ์ €, Magma๋Š” 4์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‚ฌ์ „ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค:

  • UI ๋‚ด๋น„๊ฒŒ์ด์…˜ ๋ฐ์ดํ„ฐ: SeeClick, Vision2UI ๋“ฑ ์›น/๋ชจ๋ฐ”์ผ ์กฐ์ž‘ ๊ด€๋ จ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ์›นํŽ˜์ด์ง€/์•ฑ ํ™”๋ฉด์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ: Open-X-Embodiment ๋“ฑ์—์„œ ์ œ๊ณต๋˜๋Š” ์˜คํ”ˆ์†Œ์Šค ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ, 2D ๋˜๋Š” 3D ๊ณต๊ฐ„์—์„œ ์‹ค์ œ ๋กœ๋ด‡ ํŒ”์ด ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ์žฅ๋ฉด๊ณผ ์ด์— ๋Œ€์‘ํ•˜๋Š” ํ…์ŠคํŠธ ์„ค๋ช…, ์กฐ์ž‘ ํŒŒ๋ผ๋ฏธํ„ฐ(trajectory)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ธ์ŠคํŠธ๋Ÿญ์…˜ ๋น„๋””์˜ค: Epic-Kitchen, Ego4d, Something-Something v2 ๋“ฑ, ์‚ฌ๋žŒ์ด ์–ด๋–ค ๋ชฉ์ ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์‹ค์ œ ํ–‰๋™ํ•˜๋Š” ๋ชจ์Šต์„ ๋‹ด์€ ๋™์˜์ƒ์— ๊ฐ„๋‹จํ•œ ์ž๋ง‰ ํ˜น์€ ๋‚ด๋ ˆ์ด์…˜์ด ๋ถ™์€ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ธ๊ฐ„์˜ ์†๋™์ž‘์ด๋‚˜ ๊ฐ์ฒด ์ด๋™ ๊ถค์ ์„ ToM ์ฃผ์„์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ผ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋ฐ์ดํ„ฐ: LLaVA-1.5, ShareGPT4V ๊ฐ™์€ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์Œ์„ ํฌํ•จํ•œ ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฌ๊ธฐ์— ์†ํ•ฉ๋‹ˆ๋‹ค.

UI ๋‚ด๋น„๊ฒŒ์ด์…˜ ๋ฐ์ดํ„ฐ๋Š” ์ฃผ๋กœ 2D ์ขŒํ‘œ๋งŒ ๋‹ค๋ฃจ๋ฉฐ, โ€˜ํด๋ฆญํ•  ์ˆ˜ ์žˆ๋Š” ์š”์†Œ(element)โ€™๊ฐ€ BBox(Bounding Box) ํ˜•ํƒœ๋กœ ์ •๋ฆฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋Š” ์‹œ๊ณ„์—ด(trajectory) ํ˜•ํƒœ์˜ 6-DoF ์•ก์…˜ ํ† ํฐ ์‹œํ€€์Šค๊ฐ€ ์žˆ์œผ๋ฉฐ, ๊ฐ ์Šคํ…๋งˆ๋‹ค ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ์ธ์ŠคํŠธ๋Ÿญ์…˜ ๋น„๋””์˜ค๋Š” ๊ธธ์ด๊ฐ€ ์ˆ˜ ์ดˆ~์ˆ˜์‹ญ ์ดˆ์งœ๋ฆฌ ์งง์€ ํด๋ฆฝ์œผ๋กœ ์ชผ๊ฐ  ๋’ค, ๊ฐ ํ”„๋ ˆ์ž„์„ ๋ฐ›์•„์„œ ToM ์ถ”์ ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋ฐ์ดํ„ฐ๋Š” ๋ณ„๋„์˜ ์•ก์…˜ ์ •๋ณด ์—†์ด, ์ฃผ๋กœ โ€œ์ด ์ด๋ฏธ์ง€์—์„œ ๊ฐœ๊ฐ€ ๋ช‡ ๋งˆ๋ฆฌ ๋ณด์ด๋Š”์ง€?โ€ ๊ฐ™์€ ์งˆ์˜์‘๋‹ต ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. Magma๋Š” ์ด์ฒ˜๋Ÿผ ์„œ๋กœ ๋‹ค๋ฅธ ๊ตฌ์กฐ์˜ ๋ฐ์ดํ„ฐ๋“ค์„ ๋ชจ๋‘ ๋ฌถ์–ด ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด, ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์„ SoM/ToM ๋ฐฉ์‹์œผ๋กœ ํ†ต์ผํ•ฉ๋‹ˆ๋‹ค.

์ดํ›„ SoM(Set-of-Mark)์™€ ToM(Trace-of-Mark) ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ Magma ํ•™์Šต์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค:

  • SoM ์ƒ์„ฑ: UI ๋ฐ์ดํ„ฐ(์›น, ๋ชจ๋ฐ”์ผ)์˜ ๊ฒฝ์šฐ, DOM ํŠธ๋ฆฌ๋‚˜ ์•ˆ๋“œ๋กœ์ด๋“œ ๋ทฐ ๊ณ„์ธต(Android View Hierarchies)์„ ๋ถ„์„ํ•ด ํด๋ฆญ ๊ฐ€๋Šฅํ•œ ์š”์†Œ๋“ค์˜ BBox๋ฅผ ์–ป์€ ๋’ค, ๊ฐ ์š”์†Œ์— 1, 2, 3โ€ฆ ์‹์œผ๋กœ ๋ฒˆํ˜ธ๋ฅผ ๋งค๊ฒจ ๋งˆํฌ๋ฅผ ๋ถ™์—ฌ์„œ ์ด๋ฏธ์ง€์— ๊ฒน์ณ ๊ทธ๋ฆฝ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ, ๋ชจ๋ธ ํ•™์Šต ์‹œ์—๋Š” โ€œ์‚ฌ์šฉ์ž ๋ช…๋ น -> ๋งˆํฌ ํ‘œ์‹œ๋œ ์ด๋ฏธ์ง€ -> ๋ชจ๋ธ์€ ์–ด๋Š ๋ฒˆํ˜ธ๋ฅผ ํด๋ฆญํ• ์ง€ ์˜ˆ์ธกโ€ ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ์—์„œ๋„, ๋กœ๋ด‡์ด ์กฐ์ž‘ ๊ฐ€๋Šฅํ•œ ๋ฌผ์ฒด๋‚˜ ๊ทธ๋ฆฌํผ ์œ„์น˜ ๋“ฑ์„ ๋งˆํฌ๋กœ ํ‘œ์‹œํ•˜๊ณ , ๋ชจ๋ธ์€ ๊ทธ ๋งˆํฌ๋“ค์„ ์–ด๋–ค ์ˆœ์„œ๋กœ, ์–ด๋Š ๋ฐฉํ–ฅ์œผ๋กœ ์กฐ์ž‘ํ• ์ง€ ํ† ํฐํ™”ํ•˜์—ฌ ์˜ˆ์ธกํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

  • ToM ์ƒ์„ฑ: ์ธ์ŠคํŠธ๋Ÿญ์…˜ ๋น„๋””์˜ค ๋˜๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ๋™์˜์ƒ ๋“ฑ ์‹œ๊ฐ„์ถ•์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์—๋Š” ToM์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์šฐ์„  ์ฒซ ํ”„๋ ˆ์ž„์—์„œ grid ๊ธฐ๋ฐ˜์œผ๋กœ ์ด˜์ด˜ํžˆ ํฌ์ธํŠธ๋“ค์„ ์ฐ์€ ๋’ค, CoTracker์™€ ๊ฐ™์€ ์ตœ์‹  ์ถ”์  ๋ชจ๋ธ์„ ์จ์„œ ๋‹ค์Œ ํ”„๋ ˆ์ž„๋“ค์—์„œ ๊ฐ ํฌ์ธํŠธ๊ฐ€ ์–ด๋””๋กœ ์ด๋™ํ•˜๋Š”์ง€๋ฅผ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ, ๋งŒ์•ฝ ์นด๋ฉ”๋ผ ์›€์ง์ž„์ด ํฌ๋‹ค๋ฉด, ํ˜ธ๋ชจ๊ทธ๋ž˜ํ”ผ(homography) ๋ณ€ํ™˜ ๋“ฑ์„ ํ†ตํ•ด ์ „์—ญ ์ด๋™์„ ๋ณด์ •ํ•ฉ๋‹ˆ๋‹ค. ์ดํ›„ ์ด๋™ ๊ฑฐ๋ฆฌ๊ฐ€ ๋งค์šฐ ์ž‘์€ ํฌ์ธํŠธ๋Š” ๋ฐฐ๊ฒฝ์œผ๋กœ ๊ฐ„์ฃผํ•ด ์ œ์™ธํ•˜๊ณ , ์ผ์ • ์ด์ƒ ์›€์ง์ด๋Š” ํฌ์ธํŠธ(์ฆ‰ foreground, ์ฆ‰ ์‹ค์ œ๋กœ ์กฐ์ž‘๋œ ๋ฌผ์ฒด๋‚˜ ์†๋™์ž‘)๋ฅผ ์ค‘์‹ฌ์œผ๋กœ K-Means ๋“ฑ์œผ๋กœ ๊ทธ๋ฃนํ™”ํ•˜์—ฌ ๋Œ€ํ‘œ ๋งˆํฌ๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ (๋งˆํฌ + ์‹œ๊ฐ„ ์ˆœ์„œ๋ณ„ ์ด๋™ ์ขŒํ‘œ) ์ •๋ณด๋ฅผ ๋ชจ๋ธ์—๊ฒŒ ์˜ˆ์ธกํ•˜๋„๋ก ์‹œํ‚ค๋ฉด, ๋ชจ๋ธ์€ ๋น„๋””์˜ค๋ฅผ ๋ณด๊ณ  ์‹ค์ œ ๋™์ž‘ ์‹œํ€€์Šค๊ฐ€ ์–ด๋–ป๊ฒŒ ์ „๊ฐœ๋˜๋Š”์ง€ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ ์ด๋ ‡๊ฒŒ ์ •๋ฆฌ ๋ฐ ์ƒ์„ฑํ•œ ์•ฝ 3,900๋งŒ ๊ฑด์˜ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์‚ฌ์ „ ํ•™์Šต(Pre-training)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. LLaMA-3(์•ฝ 8B ํŒŒ๋ผ๋ฏธํ„ฐ) ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์— ConvNeXt-XXLarge ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ ๋‚ด์˜ ๋ชจ๋“  ๊ฐ€์ค‘์น˜๋“ค์„ ์—”๋“œ-ํˆฌ-์—”๋“œ(End-to-End)๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ๊ณผ์ •์€ 3epoch ๋‚ด์™ธ๋กœ ์ง„ํ–‰๋˜๋ฉฐ, ๋น„๊ต์  ๋‚ฎ์€ ํ•™์Šต๋ฅ (LR, Learning-Rate: 1e-5)๋กœ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ข…๋ฅ˜๋ณ„๋กœ ๋ฏธ๋‹ˆ๋ฐฐ์น˜๋ฅผ ์„ž์–ด์„œ ํ•™์Šตํ•˜๋ฉฐ, ์ˆœ์ˆ˜ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ QA ๋ฐ์ดํ„ฐ๋‚˜ UI ๋ฐ์ดํ„ฐ, ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ, ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณจ๊ณ ๋ฃจ ๋“ค์–ด๊ฐ€๋„๋ก ์ƒ˜ํ”Œ๋ง ๋น„์œจ์„ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

ํ•™์Šต ๋ชฉํ‘œ๋Š” ๊ฐ„๋‹จํ•˜๊ฒŒ๋Š” ์–ธ์–ด ๋ชจ๋ธ(Decoder-Only Language Model)์˜ ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ์‹, ์ฆ‰ โ€œ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธกโ€์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๋‹ค์Œ ํ† ํฐ์€ SoM/ToM์— ์˜ํ•ด ํ‘œ์‹œ๋œ ๋งˆํฌ ๋ฒˆํ˜ธ๋‚˜ ์ขŒํ‘œ, ๊ทธ๋ฆฌ๊ณ  ํ…์ŠคํŠธ ๋‹ต๋ณ€ ๋“ฑ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜์ ์œผ๋กœ, ์ด๋ ‡๊ฒŒ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ํ† ํฐ์ด ํ•˜๋‚˜์˜ LM์— ๋’ค์„ž์ด๋Š” ๊ฒƒ์€ ๋‚œํ•ดํ•ด ๋ณด์ด์ง€๋งŒ, SoM/ToM์œผ๋กœ ์ธํ•ด ์•ก์…˜ ํ† ํฐ์ด ์–ด๋Š ์ •๋„ ์ผ๊ด€๋œ ํ˜•ํƒœ๋กœ ์ •๊ทœํ™”๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ์ฝ” ๋ถˆ๊ฐ€๋Šฅํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š”, 2D ์ขŒํ‘œ๋‚˜ 7-์ž์œ ๋„(7-DoF)์˜ ๋กœ๋ด‡ ์•ก์…˜๋„ 256๊ฐœ ์ •๋„์˜ ์ •๊ทœํ™”๋œ ์ฝ”๋“œ๋ถ(codebook) ๋‚ด์˜ ๋ฒ”์œ„๋กœ ๋ณ€ํ™˜๋˜์–ด ํ…์ŠคํŠธ ํ† ํฐ์ฒ˜๋Ÿผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ํ•™์Šต์ด ์ž˜ ์ง„ํ–‰๋˜๋ฉด ๋ชจ๋ธ์€ ํŠน์ • ์ž‘์—…์„ ์„ค๋ช…ํ•˜๋Š” ํ…์ŠคํŠธ์™€, ๋Œ€์‘๋˜๋Š” ์ด๋ฏธ์ง€/๋™์˜์ƒ ์ •๋ณด๋ฅผ ํ•จ๊ป˜ ๋ณธ ๋‹ค์Œ, โ€œ์ด ์žฅ๋ฉด์—์„œ ๋งˆํฌ #2๋ฅผ ์žก๊ณ  ์™ผ์ชฝ์œผ๋กœ ์ด๋™โ€ ํ˜น์€ โ€œ์ด ์›นํŽ˜์ด์ง€์—์„œ ๋งˆํฌ #10์ธ ๋ฒ„ํŠผ์„ ํด๋ฆญโ€ ๊ฐ™์€ ์‹์˜ ์™„์ „ํ•œ ์•ก์…˜ ์‹œํ€€์Šค๋ฅผ ํ† ํฐ์œผ๋กœ ๋งŒ๋“ค์–ด๋‚ด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Magma์˜ ๊ฒฝ์šฐ, ๋‹ค์–‘ํ•œ ์‹คํ—˜์—์„œ SoM๊ณผ ToM ์—†์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœํžˆ ํ•ฉ์น˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Œ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰, UI+๋กœ๋ด‡+์˜์ƒ+์ด๋ฏธ์ง€ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ๊บผ๋ฒˆ์— ํ•™์Šตํ•  ๋•Œ, SoM/ToM ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์ง€ ์•Š์œผ๋ฉด ์„œ๋กœ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ ๊ฐ„ ์ƒํ˜ธ๊ฐ„์„ญ์ด ํฌ๊ฒŒ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ SoM/ToM์„ ์ ์šฉํ•˜์—ฌ ์˜์ƒ๊ณผ ๋กœ๋ด‡, UI ๋„๋ฉ”์ธ์—์„œ์˜ ์•ก์…˜ ๋ผ๋ฒจ์„ ์œ ์‚ฌํ•œ ํ˜•ํƒœ๋กœ ํ†ต์ผํ•˜์—ฌ, ๋ชจ๋ธ์ด ์‰ฝ๊ฒŒ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ

UI ๋‚ด๋น„๊ฒŒ์ด์…˜ ์„ฑ๋Šฅ

UI ๋‚ด๋น„๊ฒŒ์ด์…˜ ๋ถ„์•ผ์—์„œ Magma๋Š” ์›น(Mind2Web)๊ณผ ๋ชจ๋ฐ”์ผ(AITW) ํ™˜๊ฒฝ ๋ชจ๋‘์—์„œ ๊ธฐ์กด ๋ชจ๋ธ(GPT-4V, Qwen-VL, SeeClick, Fuyu ๋“ฑ)์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Mind2Web ์‹คํ—˜์—์„œ, โ€œCross-Website / Cross-Task / Cross-Domainโ€๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์„ค์ •์—์„œ๋„ Element Selection Accuracy, Operation F1, Step Success Rate ์ง€ํ‘œ๊ฐ€ ๋†’์€ ์ˆ˜์น˜๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ชจ๋ฐ”์ผ ํ™˜๊ฒฝ AITW์—์„œ๋„ General, Install, GoogleApps, WebShopping ๋“ฑ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ์ž‘์—…์— ๋Œ€ํ•ด 60~70% ์ด์ƒ์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฉฐ, GPT-4V + OmniParser๋‚˜ Fuyu-8B-GUI ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๊ทธ ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ์‹œํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Set-of-Mark(SoM)์„ ํ†ตํ•ด ํ™”๋ฉด์ƒ ์•ก์…˜ ํ›„๋ณด(๋ฒ„ํŠผ, ์ž…๋ ฅ๋ž€ ๋“ฑ)๋ฅผ ๊ฐ„ํŽธํ•˜๊ฒŒ ์ •๊ทœํ™”ํ•˜๊ณ , ๋ชจ๋ธ์ด ํ•ด๋‹น ํ›„๋ณด๋ฅผ ํ…์ŠคํŠธ ํ† ํฐ ํ˜•ํƒœ๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ ๋•๋ถ„์œผ๋กœ ํ•ด์„๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์•ฝ๊ฐ„์˜ ํŒŒ์ธํŠœ๋‹๋งŒ์œผ๋กœ๋„ ์ข‹์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋ฏ€๋กœ, ์‹ค์ œ UI ์ž๋™ํ™” ์‹œ์Šคํ…œ์—๋„ ์ถฉ๋ถ„ํžˆ ์‘์šฉ๋  ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋กœ๋ด‡ ์กฐ์ž‘ ์„ฑ๋Šฅ

๋กœ๋ด‡ ์กฐ์ž‘ ์˜์—ญ์—์„œ๋Š” SimplerEnv ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ(Bridge, Google Robot)์™€ ์‹ค์ œ ๋กœ๋ด‡(WidowX 250) ๋‘ ๊ฐ€์ง€ ํ™˜๊ฒฝ์„ ํ†ตํ•ด Magma์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. SimplerEnv ์‹คํ—˜์—์„œ Magma๋Š” โ€˜Pick Coke Canโ€™, โ€˜Open/Close Drawerโ€™, โ€˜Put Object in Drawerโ€™, โ€˜Stack Blocksโ€™ ๋“ฑ ๋‚œ์ด๋„ ์žˆ๋Š” ์ž‘์—…์„ ์ œ๋กœ์ƒท(Zero-shot)์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ์Œ์—๋„, OpenVLA, RT-1-X ๋“ฑ ๋กœ๋ด‡ ์ „์šฉ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์‹ค์ œ WidowX ๋กœ๋ด‡ํŒ” ํ™˜๊ฒฝ์—์„œ๋„, ๋‹จ 50๊ฐœ ๋‚ด์™ธ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธํŠœ๋‹ํ•œ ๋’ค โ€œํ•ซ๋„๊ทธ ์†Œ์‹œ์ง€๋ฅผ ๋นต์— ๋ผ์›Œ ๋„ฃ๊ธฐโ€, โ€œ๋ฒ„์„ฏ์„ ๋ƒ„๋น„๋กœ ์˜ฎ๊ธฐ๊ธฐโ€, โ€œ์ฒœ์„ ํŠน์ • ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ€๊ธฐโ€ ๊ฐ™์€ ์ž‘์—…๋“ค์„ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

OpenVLA ๋Œ€๋น„ ๋‘ ๋ฐฐ ๊ฐ€๊นŒ์šด ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ธ ๊ณผ์ œ๋„ ์žˆ์—ˆ์œผ๋ฉฐ, ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ์ž‘์—…(Unseen task)์—์„œ๋„ ๊ฝค ๋†’์€ ์ ์‘๋ ฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ์˜์ƒยท๋น„๋””์˜ค์—์„œ Trace-of-Mark(ToM)์„ ํ†ตํ•ด ์Šต๋“ํ•œ ์‹œ๊ณต๊ฐ„์  ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘๊นŒ์ง€ ํšจ๊ณผ์ ์œผ๋กœ ์ „์ด๋˜์—ˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๊ณต๊ฐ„ ์ถ”๋ก (Spatial Reasoning) ํ‰๊ฐ€

Magma๋Š” ์ˆœ์ˆ˜ ๊ณต๊ฐ„ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ(VSR, BLINK, SpatialEval)์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(์˜ˆ: LLaVA, Qwen-VL, GPT-4V)์ด ๋ณต์žกํ•œ ์ขŒํ‘œ ์งˆ๋ฌธ์ด๋‚˜ โ€˜์™ผ์ชฝ์—์„œ ๋ช‡ ๋ฒˆ์งธ ์นธโ€™, โ€˜์œ„์—์„œ ๋‘ ๋ฒˆ์งธ ์—ดโ€™ ๊ฐ™์€ ์งˆ์˜์—์„œ ์ข…์ข… ํ‹€๋ฆฐ ๋‹ต๋ณ€์„ ๋‚ด๋Š” ๋ฐ˜๋ฉด, Magma๋Š” SoM/ToM ๊ธฐ๋ฐ˜ ํ•™์Šต ๋•๋ถ„์— ์ •ํ™•ํ•œ ์œ„์น˜ ์ •๋ณด๋ฅผ ํŒŒ์•…ํ•˜๊ณ  ๋Œ€๋‹ตํ•˜๋Š” ๋ชจ์Šต์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ BLINK์™€ SpatialEval์˜ ์„ธ๋ถ€ ์ง€ํ‘œ์—์„œ ํƒ€ ๋ชจ๋ธ ๋Œ€๋น„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, UIยท๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์—์„œ ์Šต๋“ํ•œ ์ •๊ตํ•œ ๊ณต๊ฐ„ ์ธ์‹์ด ์ผ๋ฐ˜ VQA ๋ฌธ์ œ์—๋„ ์ด๋“์„ ์ค€๋‹ค๋Š” ์‚ฌ์‹ค์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ๋•๋ถ„์—, ๋‹จ์ˆœ ์ด๋ฏธ์ง€๋ฅผ ์„œ์ˆ ํ•˜๋Š” ์ˆ˜์ค€์„ ๋„˜์–ด ์ •ํ™•ํ•œ ์ขŒํ‘œ์™€ ์ƒ๋Œ€์  ์œ„์น˜๋ฅผ ์ถ”๋ก ํ•˜๋Š” ์ƒํ™ฉ์—๋„ ๋Œ€์‘ ๊ฐ€๋Šฅํ•จ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ Magma๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ™” ์ƒํ™ฉ์—์„œ โ€œ์‹œ๊ฐ์  ๊ณต๊ฐ„ ์ดํ•ดโ€๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ์ ์ด ๋ถ€๊ฐ๋ฉ๋‹ˆ๋‹ค.

๋น„๋””์˜ค ๊ธฐ๋ฐ˜ QA(Video QA) ์„ฑ๋Šฅ

๋น„๋””์˜ค ์ดํ•ด๊ฐ€ ํ•„์š”ํ•œ QA ํƒœ์Šคํฌ์—์„œ๋„ Magma๋Š” ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ Next-QA์˜ Short/Medium/Long ์˜์—ญ ์ „์ฒด์—์„œ ๋†’์€ ์ ์ˆ˜๋ฅผ ํš๋“ํ•˜์˜€๊ณ , IntentQA์—์„œ๋Š” ์•ฝ 88.6%๋ผ๋Š” ์ธ์ƒ์ ์ธ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. VideoMME์˜ Action Prediction, Action Sequence, Action Localization ๊ฐ™์€ ์„ธ๋ถ€ ๊ณผ์ œ์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ, ์˜์ƒ ์† ์ธ๋ฌผ์ด๋‚˜ ๊ฐ์ฒด์˜ ์›€์ง์ž„์„ ์ž˜ ํฌ์ฐฉํ•œ๋‹ค๋Š” ์ ์ด ๋ถ€๊ฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. GPT-4V๋‚˜ Video-Llama2 ๋“ฑ ๊ฑฐ๋Œ€ยทํ์‡„ํ˜• ๋ชจ๋ธ๊ณผ ์ผ๋ถ€ ํ•ญ๋ชฉ์—์„œ ๋น„๋“ฑํ•˜๊ฑฐ๋‚˜ ๋” ๋†’์€ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ์˜์ƒ ํ”„๋ ˆ์ž„๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•œ ํ•™์Šต ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” Trace-of-Mark(ToM)์œผ๋กœ ์ถ•์ ๋œ ์‹œ๊ฐ„์ ยท๋™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ์ผ์ƒ ํ–‰๋™์ด ๋‹ด๊ธด ๋™์˜์ƒ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ์—๋„ ํฌ๊ฒŒ ๊ธฐ์—ฌํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก 

Magma๋Š” ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ(์ด๋ฏธ์ง€, ๋™์˜์ƒ, ์–ธ์–ด ๋“ฑ)์„ ํ•ด์„ํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ํ–‰๋™๊นŒ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ์ตœ์ดˆ์˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๋กœ ์ œ์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ Vision-Language(VL) ๋ชจ๋ธ์„ ๋„˜์–ด, UI(๊ทธ๋ž˜ํ”ฝ ์‚ฌ์šฉ์ž ์ธํ„ฐํŽ˜์ด์Šค) ๋ฐ ๋กœ๋ด‡ ์กฐ์ž‘ ๋“ฑ ๋ฌผ๋ฆฌ์ ยท๋””์ง€ํ„ธ ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ์—์ด์ „ํŠธํ˜• ํƒœ์Šคํฌ๊นŒ์ง€ ํ™•์žฅ๋˜์—ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ํŠน์ง•์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

ํŠนํžˆ, ๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ๋Š” ์ด๋ฏธ์ง€, ๋™์˜์ƒ, ๋กœ๋ด‡ ์‹œ์—ฐ, UI ์Šคํฌ๋ฆฐ์ƒท ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์˜€์œผ๋ฉฐ, ์ด์งˆ์ ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด Set-of-Mark(SoM)๊ณผ Trace-of-Mark(ToM)์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๊ธฐ๋ฒ•์„ ์ƒˆ๋กญ๊ฒŒ ๋„์ž…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. SoM์€ ์ •์ ์ธ ์ด๋ฏธ์ง€๋‚˜ ํ™”๋ฉด์—์„œ ์•ก์…˜ ๊ฐ€๋Šฅ ์ง€์ ์„ ํ‘œ์‹œํ•˜์—ฌ ๋ชจ๋ธ์ด ์ด๋ฅผ ํ…์ŠคํŠธ ํ† ํฐ์œผ๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•˜๋ฉฐ, ToM์€ ๋น„๋””์˜ค๋‚˜ ์—ฐ์†๋œ ๊ด€์ธก์—์„œ ๊ฐ์ฒด์˜ ์ด๋™ ๊ถค์ ์„ ์ถ”์ถœํ•˜์—ฌ ์‹œ๊ฐ„์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Magma๋Š” ์–ธ์–ด์ ยท๊ณต๊ฐ„์ ยท์‹œ๊ฐ„์  ์ง€์‹์„ ํ†ตํ•ฉ์ ์œผ๋กœ ํ•™์Šตํ•˜๋ฉฐ, UI ๋„ค๋น„๊ฒŒ์ด์…˜๊ณผ ๋กœ๋ด‡ ์กฐ์ž‘ ๋“ฑ์˜ ์˜์—ญ์—์„œ ๊ธฐ์กด๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ์ ์‘๋ ฅ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด์— ๋”ฐ๋ผ, ๊ธฐ์กด์—๋Š” ์›น ๋ธŒ๋ผ์šฐ์ € ์ž๋™ํ™”, ๋ชจ๋ฐ”์ผ ์•ฑ ์กฐ์ž‘, ๋กœ๋ด‡ ์กฐ์ž‘, ์˜์ƒ ์ดํ•ด ๋“ฑ์ด ๊ฐ๊ฐ์˜ ๋ชจ๋ธ๋กœ ๋ถ„๋ฆฌ๋˜์–ด ์ˆ˜ํ–‰๋˜์—ˆ์œผ๋‚˜, Magma๋Š” ํ•˜๋‚˜์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ๋ชจ๋“  ์˜์—ญ์„ ํฌ๊ด„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, Magma๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์™€ ํ–‰๋™ ์˜ˆ์ธก ์‚ฌ์ด์˜ ๊ฐ„๊ทน์„ ์ขํžˆ๋ฉฐ, ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์œ ์—ฐํ•˜๊ณ  ๋ฒ”์šฉ์ ์ธ ์—์ด์ „ํŠธ๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐ ํ•œ ๊ฑธ์Œ ๋” ๊ฐ€๊นŒ์›Œ์กŒ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Magma๊ฐ€ BLINK ๋ฐ VideoMME์™€ ๊ฐ™์€ ๋ณตํ•ฉ์ ์ธ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜์—ฌ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, UI ๋‚ด๋น„๊ฒŒ์ด์…˜(Mind2Web, AITW), ๋กœ๋ด‡ ์กฐ์ž‘(SimplerEnv, ์‹ค์ œ WidowX ๋กœ๋ด‡) ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์—์„œ๋„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹คํ—˜์ ์œผ๋กœ ๊ฒ€์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๊ณผ๋Š” SoM๊ณผ ToM ๊ธฐ๋ฒ•์ด ๋‹จ์ˆœํ•œ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒฐํ•ฉ์„ ๋„˜์–ด ์‹ค์ œ ๋ฌผ์ฒด๋‚˜ ๋ฒ„ํŠผ, ์†๋™์ž‘ ๋“ฑ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์‹๋ณ„ํ•˜๊ณ  ์ถ”์ ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ, Magma์˜ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ์ฝ”๋“œ, ๋ฐ์ดํ„ฐ๋Š” ๊ณต๊ฐœ๋˜์–ด ์—ฐ๊ตฌ์˜ ์žฌํ˜„์„ฑ๊ณผ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์˜€์œผ๋ฉฐ, ํ–ฅํ›„ ๋กœ๋ด‡, AR/VR, ๋ฉ”ํƒ€๋ฒ„์Šค ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ๋กœ ํ™•์žฅ๋  ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋Š” ๋”์šฑ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์„ ํ™•์žฅํ•ด ๋‚˜๊ฐ€๋ฉฐ, ์•ˆ์ •์„ฑ๊ณผ ์•ˆ์ „์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์œค๋ฆฌ์  ์ธก๋ฉด๊นŒ์ง€ ๊ณ ๋ คํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ง€์†์ ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

:house: Magma ๋…ผ๋ฌธ ํ™ˆํŽ˜์ด์ง€

https://microsoft.github.io/Magma/

:scroll: Magma: A Foundation Model for Multimodal AI Agents ๋…ผ๋ฌธ

:github: Magma GitHub ์ €์žฅ์†Œ




์ด ๊ธ€์€ GPT ๋ชจ๋ธ๋กœ ์ •๋ฆฌํ•œ ๊ธ€์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•œ ๊ฒƒ์œผ๋กœ, ์›๋ฌธ์˜ ๋‚ด์šฉ ๋˜๋Š” ์˜๋„์™€ ๋‹ค๋ฅด๊ฒŒ ์ •๋ฆฌ๋œ ๋‚ด์šฉ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ด€์‹ฌ์žˆ๋Š” ๋‚ด์šฉ์ด์‹œ๋ผ๋ฉด ์›๋ฌธ๋„ ํ•จ๊ป˜ ์ฐธ๊ณ ํ•ด์ฃผ์„ธ์š”! ์ฝ์œผ์‹œ๋ฉด์„œ ์–ด์ƒ‰ํ•˜๊ฑฐ๋‚˜ ์ž˜๋ชป๋œ ๋‚ด์šฉ์„ ๋ฐœ๊ฒฌํ•˜์‹œ๋ฉด ๋ง๊ธ€๋กœ ์•Œ๋ ค์ฃผ์‹œ๊ธฐ๋ฅผ ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค. :hugs:

:pytorch:ํŒŒ์ดํ† ์น˜ ํ•œ๊ตญ ์‚ฌ์šฉ์ž ๋ชจ์ž„:kr:์ด ์ •๋ฆฌํ•œ ์ด ๊ธ€์ด ์œ ์šฉํ•˜์…จ๋‚˜์š”? ํšŒ์›์œผ๋กœ ๊ฐ€์ž…ํ•˜์‹œ๋ฉด ์ฃผ์š” ๊ธ€๋“ค์„ ์ด๋ฉ”์ผ:love_letter:๋กœ ๋ณด๋‚ด๋“œ๋ฆฝ๋‹ˆ๋‹ค! (๊ธฐ๋ณธ์€ Weekly์ง€๋งŒ Daily๋กœ ๋ณ€๊ฒฝ๋„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.)

:gift: ์•„๋ž˜:arrow_lower_right:์ชฝ์— ์ข‹์•„์š”:+1:๋ฅผ ๋ˆŒ๋Ÿฌ์ฃผ์‹œ๋ฉด ์ƒˆ๋กœ์šด ์†Œ์‹๋“ค์„ ์ •๋ฆฌํ•˜๊ณ  ๊ณต์œ ํ•˜๋Š”๋ฐ ํž˜์ด ๋ฉ๋‹ˆ๋‹ค~ :star_struck: