Sapiens: πŸ§‘β€πŸ€β€πŸ§‘ 인간 λΉ„μ „ λͺ¨λΈμ„ μœ„ν•œ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈ (feat. Meta Reality Labs)

Sapiens μ†Œκ°œ

sapiens_animation

졜근 컴퓨터 λΉ„μ „ λΆ„μ•Όμ—μ„œλŠ” 인간을 λŒ€μƒμœΌλ‘œ ν•œ 포즈 μΆ”μ •, 신체 λΆ€μœ„ λΆ„ν• , 깊이 및 ν‘œλ©΄ λ…Έλ©€ 예츑 λ“±μ˜ μž‘μ—…μ΄ 크게 μ£Όλͺ©λ°›κ³  μžˆμŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ, μ΄λŸ¬ν•œ μž‘μ—…μ„ μ •ν™•ν•˜κ²Œ μˆ˜ν–‰ν•˜λŠ” 것은 μ—¬μ „νžˆ 도전 κ³Όμ œμž…λ‹ˆλ‹€. 특히 싀세계 λ°μ΄ν„°μ—μ„œ 라벨링된 데이터λ₯Ό μ–»λŠ” 것은 λΉ„μš©μ΄ 많이 λ“€κ³  μ‹œκ°„μ΄ 많이 μ†Œμš”λ©λ‹ˆλ‹€. 이에 따라 SapiensλŠ” 고해상도 μ΄λ―Έμ§€μ—μ„œ λ„€ 가지 인간 μ€‘μ‹¬μ˜ λΉ„μ „ μž‘μ—…μ„ 효율적으둜 μ²˜λ¦¬ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ λͺ¨λΈκ΅°μ„ μ œμ•ˆν•©λ‹ˆλ‹€. 이 λͺ¨λΈλ“€μ€ λŒ€κ·œλͺ¨ 인간 이미지 λ°μ΄ν„°μ…‹μœΌλ‘œ 사전 ν•™μŠ΅λœ ν›„, νŠΉμ • μž‘μ—…μ— 맞게 λ―Έμ„Έ μ‘°μ •λ˜μ–΄, μ‹€μ„Έκ³„μ—μ„œμ˜ κ°•λ ₯ν•œ μΌλ°˜ν™” μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

Sapiens λͺ¨λΈμ€ 기쑴의 μ΅œμ²¨λ‹¨ κΈ°μˆ λ³΄λ‹€ 훨씬 더 μš°μˆ˜ν•œ μ„±λŠ₯을 μžλž‘ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, 2D 포즈 μΆ”μ •μ—μ„œ 이전 졜고 μ„±λŠ₯ λͺ¨λΈμ„ 7.6 mAP 차이둜 λŠ₯κ°€ν•˜λ©°, 신체 λΆ€μœ„ λΆ„ν• μ—μ„œλŠ” 17.1 mIoU, 깊이 μΆ”μ •μ—μ„œλŠ” 22.4% RMSE, ν‘œλ©΄ λ…Έλ©€ μ˜ˆμΈ‘μ—μ„œλŠ” 53.5%의 μƒλŒ€μ  각도 였차λ₯Ό μ€„μ˜€μŠ΅λ‹ˆλ‹€. Sapiens λͺ¨λΈμ˜ μ£Όμš” νŠΉμ§•μ€ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€:

  • 고해상도 지원: 1K ν•΄μƒλ„μ˜ κ³ ν’ˆμ§ˆ 이미지λ₯Ό μžμ—°μŠ€λŸ½κ²Œ μ²˜λ¦¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • λŒ€κ·œλͺ¨ 사전 ν•™μŠ΅: 300μ–΅ 개 μ΄μƒμ˜ 인간 이미지λ₯Ό μ‚¬μš©ν•΄ 사전 ν•™μŠ΅ν•˜μ—¬, λ‹€μ–‘ν•œ 인간 쀑심 μž‘μ—…μ— μ ν•©ν•©λ‹ˆλ‹€.
  • κ°„λ‹¨ν•œ λͺ¨λΈ 섀계: λ―Έμ„Έ μ‘°μ •λ§ŒμœΌλ‘œλ„ λ‹€μ–‘ν•œ μž‘μ—…μ— 적응할 수 μžˆμ–΄ μ‚¬μš©μ΄ κ°„νŽΈν•©λ‹ˆλ‹€.
  • ν™•μž₯μ„±: λͺ¨λΈμ˜ μ„±λŠ₯은 νŒŒλΌλ―Έν„° μˆ˜μ— 따라 λ”μš± ν–₯μƒλ©λ‹ˆλ‹€.

Humans-300M 데이터셋

Sapiens λͺ¨λΈμ€ 11μ–΅ 개의 μ•Όμƒμ—μ„œ μˆ˜μ§‘λœ 인간 이미지λ₯Ό ν¬ν•¨ν•œ λŒ€κ·œλͺ¨ 데이터셋인 Humans-300M을 μ‚¬μš©ν•˜μ—¬ 사전 ν•™μŠ΅λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 데이터셋은 μžμ—°μŠ€λŸ¬μš΄ 인간 이미지λ₯Ό ν¬ν•¨ν•˜λ©°, λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ μΌλ°˜ν™”λ₯Ό μœ„ν•œ μ€‘μš”ν•œ μš”μ†Œλ‘œ μž‘μš©ν•©λ‹ˆλ‹€.

:house: Sapiens μ†Œκ°œ κΈ€

:scroll: Sapiens λ…Όλ¬Έ

:github: Sapiens GitHub μ €μž₯μ†Œ




이 글은 GPT λͺ¨λΈλ‘œ μ •λ¦¬ν•œ 글을 λ°”νƒ•μœΌλ‘œ ν•œ κ²ƒμœΌλ‘œ, μ›λ¬Έμ˜ λ‚΄μš© λ˜λŠ” μ˜λ„μ™€ λ‹€λ₯΄κ²Œ μ •λ¦¬λœ λ‚΄μš©μ΄ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€. κ΄€μ‹¬μžˆλŠ” λ‚΄μš©μ΄μ‹œλΌλ©΄ 원문도 ν•¨κ»˜ μ°Έκ³ ν•΄μ£Όμ„Έμš”! μ½μœΌμ‹œλ©΄μ„œ μ–΄μƒ‰ν•˜κ±°λ‚˜ 잘λͺ»λœ λ‚΄μš©μ„ λ°œκ²¬ν•˜μ‹œλ©΄ λ§κΈ€λ‘œ μ•Œλ €μ£Όμ‹œκΈ°λ₯Ό λΆ€νƒλ“œλ¦½λ‹ˆλ‹€. :hugs:

:pytorch:νŒŒμ΄ν† μΉ˜ ν•œκ΅­ μ‚¬μš©μž λͺ¨μž„:kr:이 μ •λ¦¬ν•œ 이 글이 μœ μš©ν•˜μ…¨λ‚˜μš”? νšŒμ›μœΌλ‘œ κ°€μž…ν•˜μ‹œλ©΄ μ£Όμš” 글듀을 이메일:love_letter:둜 λ³΄λ‚΄λ“œλ¦½λ‹ˆλ‹€! (기본은 Weeklyμ§€λ§Œ Daily둜 변경도 κ°€λŠ₯ν•©λ‹ˆλ‹€.)

:gift: μ•„λž˜:arrow_lower_right:μͺ½μ— μ’‹μ•„μš”:+1:λ₯Ό λˆŒλŸ¬μ£Όμ‹œλ©΄ μƒˆλ‘œμš΄ μ†Œμ‹λ“€μ„ μ •λ¦¬ν•˜κ³  κ³΅μœ ν•˜λŠ”λ° 힘이 λ©λ‹ˆλ‹€~ :star_struck:

2개의 μ’‹μ•„μš”

λ³΅μž‘ν•œ μ•„ν‚€ν…μ²˜λ‚˜ μˆ˜μ‹μ˜ μ œμ•ˆμ΄ μ•„λ‹Œ, λŒ€μš©λŸ‰μ˜ Unlabeled Dataset을 μ΄μš©ν•œ Self-supervised Pretrain 방식을 μ΄μš©ν•˜λŠ” λ°©μ‹μœΌλ‘œ μ„±λŠ₯을 λŒμ–΄μ˜¬λ¦°λ‹€λŠ” 점은 Depth Anything λ…Όλ¬Έ(CVPR'24)을 처음 봀을 λ•Œ 맀λ ₯적이라고 μƒκ°ν–ˆλ˜ λΆ€λΆ„μ΄μ—ˆλŠ”λ° 그보닀 ν•œλ‹¨κ³„ 더 λ‚˜μ•„κ°„ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ΄λ„€μš”.

μ΄λŸ¬ν•œ 방식이 νš¨κ³Όμ μž„μ€ 사싀 LLMμ—μ„œλ„ μ–΄λŠμ •λ„ μž…μ¦λœ 방법이기에 μ‘°λ§Œκ°„ λΉ„μ „μ—μ„œλ„ 같은 μ›€μ§μž„μ΄ 생길 것이라 μƒκ°ν–ˆλŠ”λ° 이 논문이 μ œκ°€ μƒκ°ν•œ λŠλ‚Œκ³Ό 상당 λΆ€λΆ„ μΌμΉ˜ν•˜λŠ” 것 κ°™μ•„μ„œ ν₯λ―Έλ‘­μŠ΅λ‹ˆλ‹€.

ν•œνŽΈμœΌλ‘œλŠ”, λ²ˆλœ©μ΄λŠ” μ•„μ΄λ””μ–΄μ—μ„œ λΉ„λ‘―λœ μƒˆλ‘œμš΄ μ•„ν‚€ν…μ²˜λ‚˜ λ‘œμ§μ—μ„œ, λͺ¨λΈμ˜ 크기, λ°μ΄ν„°μ˜ 크기둜 λ„˜μ–΄κ°€λŠ” 흐름이 μ£Όκ°€ 되면(이미 λ„˜μ–΄μ™”μ„ μˆ˜λ„ 있고) μ΄μ œλŠ” 곡룑 κΈ°μ—…λ“€λ§Œμ΄ μ΄λŒμ–΄λ‚˜κ°€λŠ” μ‹œμž₯이 될 μˆ˜λ„ μžˆκ² λ‹€λŠ” μš°λ €λ„ μƒκΈ°λŠ” 것 κ°™μŠ΅λ‹ˆλ‹€.

λ―Έλž˜μ—” κ²°κ΅­ λ°μ΄ν„°μ˜ 주인이 이기게 λ κΉŒμš”? ꡬ글 ν’€λ§€μˆ˜ κ°€μ¦ˆμ•„

2개의 μ’‹μ•„μš”