OpenMontage 소개
OpenMontage는 AI 코딩 어시스턴트를 영상 제작 스튜디오로 바꾸는 에이전트 기반 영상 제작 시스템입니다. 만들고 싶은 영상을 자연어로 설명하면, 에이전트가 자료 조사부터 스크립트 작성, 에셋 생성, 편집, 최종 합성까지 전 과정을 진행합니다. 본 게시물에서는 OpenMontage가 어떤 구조로 영상을 만드는지, 제작 파이프라인이 어떤 단계로 이루어지는지, 그리고 어떻게 설치해 쓰는지 정리합니다.
OpenMontage는 정지 이미지 몇 장을 움직이게 만드는 방식뿐 아니라, 무료·오픈소스 워크플로우로 실제 모션 영상을 만드는 경로도 제공합니다. 에이전트가 무료 스톡 푸티지와 공개 아카이브에서 영상 코퍼스를 구축하고, 실제 동영상 클립을 검색해 타임라인으로 편집한 뒤 완성본을 렌더링합니다. 제작 과정의 모든 창작 결정에는 사용자의 승인 단계가 들어갑니다.
이 프로젝트는 Claude Code, Cursor, Copilot, Windsurf, Codex처럼 파일을 읽고 코드를 실행할 수 있는 AI 코딩 어시스턴트와 함께 동작합니다. 빈 프롬프트에서 시작하는 대신 마음에 드는 YouTube 영상이나 Short, Reel, TikTok 클립을 참조로 건네면, 에이전트가 자막·페이싱·장면·스타일을 분석해 2~3개의 차별화된 콘셉트와 예상 비용, 샘플을 먼저 제시하기도 합니다.
OpenMontage의 에이전트 우선 구조
OpenMontage의 핵심은 "코드 오케스트레이터가 없다" 는 설계입니다. 별도의 제어 프로그램이 작업을 지휘하는 대신, 사용자의 AI 코딩 어시스턴트 자체가 오케스트레이터 역할을 합니다. 파이썬은 도구와 상태 저장(persistence)을 제공하고, 창작 결정과 오케스트레이션 로직, 검수 기준 같은 판단은 사람이 읽고 수정할 수 있는 YAML 매니페스트와 Markdown 스킬 파일에 담겨 있습니다.
저장소 설명에 따르면 OpenMontage는 12개의 파이프라인, 52개의 도구, 500개 이상의 에이전트 스킬로 구성됩니다. 각 파이프라인은 아이디어에서 완성 영상까지 이어지는 하나의 완결된 제작 워크플로우이며, 각 단계마다 그 단계를 어떻게 실행할지 에이전트에게 알려주는 전담 디렉터 스킬(director skill) 파일이 연결되어 있습니다. 에이전트는 이 스킬을 읽고 도구를 사용한 뒤 스스로 검수하고, 상태를 체크포인트로 저장하며, 창작 결정 지점마다 사람의 승인을 요청합니다.
도구 선택도 임의로 이루어지지 않습니다. OpenMontage는 모든 공급자(provider)를 작업 적합성, 출력 품질, 제어 가능성, 안정성, 비용 효율, 지연 시간, 연속성의 7가지 기준으로 점수화해 가장 적합한 것을 자동으로 고르고, 그 선택 근거를 감사 가능한 결정 로그(decision log)로 남깁니다.
OpenMontage의 영상 제작 파이프라인
영상 한 편은 여러 단계를 거쳐 만들어집니다. 먼저 웹 리서치가 1급 단계로 들어가는데, 스크립트 한 줄을 쓰기 전에 에이전트가 YouTube, Reddit, Hacker News, 뉴스, 학술 자료를 검색해 데이터와 관점, 시각적 참조를 모으고 이를 구조화된 리서치 브리프로 정리합니다.
이후 스크립트와 내레이션 작성, 이미지·영상·음악 같은 에셋 생성, 편집과 합성으로 이어집니다. 합성에는 Remotion과 HTML/CSS/GSAP 기반의 HyperFrames 런타임이 쓰이고, 후처리에는 FFmpeg가 사용됩니다. 마지막 단계에는 자체 검수 게이트가 있습니다. 렌더링이 끝나면 ffprobe 검증, 4개 위치의 프레임 샘플링을 통한 검은 화면·깨진 오버레이 확인, 오디오 레벨 분석, 자막 존재 여부 점검을 거치며, 이 검수를 통과하지 못한 영상은 사용자에게 제시되지 않습니다.
품질 게이트는 한 가지 더 있습니다. 반복성, 장식적 비주얼, 약한 모션 등 6개 차원으로 "슬라이드쇼처럼 보이는" 결과물의 위험을 점수화해, 정지 이미지를 이어 붙인 듯한 영상을 걸러냅니다. 저자들이 공개한 예시 영상에는 각각의 제작 비용도 함께 적혀 있는데, 60초 분량의 픽사 스타일 단편 "THE LAST BANANA" 는 1.33달러, FLUX 이미지 12장으로 만든 지브리풍 애니메이션 "Afternoon in Candyland" 는 0.15달러였다고 밝힙니다.
OpenMontage 설치와 사용법
OpenMontage를 실행하려면 Python 3.10 이상, FFmpeg, Node.js 18 이상, 그리고 AI 코딩 어시스턴트가 필요합니다. 저장소를 받은 뒤 make setup 으로 환경을 구성합니다.
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
설치 후에는 프로젝트를 AI 코딩 어시스턴트에서 열고 원하는 영상을 자연어로 설명하면 됩니다.
"신경망이 어떻게 학습하는지 설명하는 60초짜리 애니메이션 영상을 만들어줘"
유료 API 키 없이도 영상을 만들 수 있습니다. make setup 은 무료 오프라인 음성 합성인 Piper TTS와 Archive.org·NASA·Wikimedia Commons의 공개 아카이브 푸티지를 기본으로 제공합니다. 더 많은 도구가 필요하면 .env 에 키를 추가하는데, 예를 들어 FAL_KEY 는 FLUX 이미지와 Veo·Kling·MiniMax 영상 생성을, SUNO_API_KEY 는 음악 생성을, ELEVENLABS_API_KEY 는 고품질 음성 합성을 열어 줍니다. 각 키는 모두 선택 사항입니다.
OpenMontage의 라이선스
OpenMontage는 AGPL 3.0 라이선스로 공개되어 있습니다. AGPL은 강한 카피레프트(copyleft) 라이선스로, 수정본을 네트워크 서비스 형태로 제공하는 경우에도 소스 코드를 공개해야 하는 의무가 따릅니다. 상업적 활용을 고려한다면 이 조건을 먼저 확인하는 것이 좋습니다.
OpenMontage GitHub 저장소
OpenMontage 에이전트 가이드
더 읽어보기
-
Pixelle-Video: 주제 하나만 입력하면 스크립트부터 영상까지 자동 완성되는 AI 숏폼 영상 제작 엔진
-
AI Video Starter Kit: 브라우저에서 실행되는 AI 기반 비디오 애플리케이션을 위한 오픈소스 프로젝트 (feat. fal.ai)
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다!
텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다. ![]()
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()

