LINGO-2, 차량용 시각-언어-행동 모델(VLAM, Vision-Language-Action Model)

9bow · 4월 19, 2024, 9:52오후

PyTorchKR

영국의 자율주행 소프트웨어 개발회사 Wayve에서 LINGO-2 모델을 출시했습니다. 이전의 LINGO-1이 카메라를 통한 시각적 정보를 인식하고 언어 모델을 통해 운전 상황을 주로 설명했다면, LINGO-2는 여기에 차량을 제어할 수 있는 'Action' 기능이 추가된 Vision-Language-Action Model입니다.

LINGO-2, 차량용 시각-언어-행동 모델(VLAM, Vision-Language-Action Model)

소개

LINGO-2는 기존의 LINGO-1 모델을 한 단계 발전시킨 폐쇄 루프(closed-loop) 시각-언어-행동 모델(VLAM, Vision-Language-Action-Model)입니다. 이 모델은 차량의 시각적 인식과 언어 처리 기능을 결합하여, 운전 중 실시간으로 발생하는 상황에 대해 설명하고, 해당 상황에 맞는 운전 행동을 결정합니다. 이 기술은 자율주행 차량의 결정 과정을 사용자에게 투명하게 보여줌으로써, 기술에 대한 신뢰를 구축하고 사용자 맞춤형 제어를 가능하게 합니다.

LINGO-2는 기존의 LINGO-1 모델과 비교하여 몇 가지 중요한 발전이 있습니다. LINGO-1은 주로 운전 상황을 설명하는 데 집중했지만, LINGO-2는 설명뿐만 아니라 차량 제어까지 가능합니다. 또한, LINGO-2는 운전 중 발생하는 실시간 상황에 대해 질문에 답변할 수 있는 기능을 갖추고 있어, 상호작용성과 투명성이 향상되었습니다.

LINGO-2는 실시간으로 운전 상황에 대한 설명을 생성하고, 이를 통해 차량의 운전 결정과 행동을 조정합니다. 이 모델은 다양한 도로 상황에서 언어 기반의 명령을 수행할 수 있도록 설계되었으며, Ghost Gym과 같은 신경 시뮬레이터에서 이러한 기능을 테스트하고 있습니다.

주요 특징

멀티모달 변환 아키텍처

LINGO-2는 Wayve의 시각 모델과 자동 회귀 언어 모델로 구성되어 있습니다. 이 시각 모델은 카메라 이미지를 토큰 시퀀스로 변환하고, 이 토큰들은 경로, 현재 속도, 속도 제한과 같은 추가 조건 변수와 함께 언어 모델에 입력됩니다. 언어 모델은 이러한 입력을 바탕으로 운전 궤적과 설명 텍스트를 예측하며, 차량의 컨트롤러가 운전 궤적을 실행합니다.

언어 지시를 통한 운전 행동 조정

LINGO-2는 언어 입력을 통해 차량의 행동을 동적으로 조정할 수 있습니다. 예를 들어, "오른쪽으로 회전하라" 또는 "버스 뒤에서 정지하라"와 같은 명령어를 모델에 입력함으로써, 차량이 그에 맞춰 운전 행동을 변경할 수 있습니다.

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~