FlexTok: 이미지를 유연한 길이의 1D 토큰 시퀀스로 재구성하는 라이브러리 (feat. Apple)

9bow · 4월 9, 2025, 9:30오전

FlexTok 소개

Apple과 EPFL(Swiss Federal Institute of Technology Lausanne)이 공동으로 연구 및 발표한 FlexTok은 이미지 생성 및 표현 방식에서 기존의 한계를 뛰어넘는 새로운 접근을 제시합니다. 이미지를 고정된 2D 패치 기반 토큰화하는 방식 대신, 유연한 길이의 1D 시퀀스로 이미지를 토큰화함으로써 복잡도에 따라 토큰 수를 동적으로 조절할 수 있습니다.

FlexTok은 이미지를 고정된 크기의 2D 그리드가 아닌, 유연한 길이의 1D 토큰 시퀀스로 변환하는 기술입니다. 기존의 이미지 토큰화 방식은 주로 고정된 크기의 패치를 사용하여 이미지를 처리하지만, FlexTok은 이미지의 내용을 1D 시퀀스로 재구성하여 더 효율적인 처리가 가능합니다. 이 접근 방식은 특히 자연어 처리 모델과의 통합에서 큰 잠재력을 보여줍니다. 예를 들어, 이미지를 1D 토큰 시퀀스로 변환함으로써, 텍스트와 이미지를 동일한 형태로 다룰 수 있어 멀티모달 학습에 유리합니다. FlexTok의 이러한 특징은 이미지 생성, 변환, 그리고 복원 작업에서 높은 성능을 기대하게 합니다.

기존의 이미지 토큰화 방법은 주로 고정된 크기의 패치를 사용하여 이미지를 분할하고 처리합니다. 이러한 방식은 이미지의 구조를 유지하는 데 유리하지만, 유연성이 부족하여 다양한 크기와 형태의 이미지에 적용하기 어렵습니다. 반면, FlexTok은 유연한 길이의 1D 토큰 시퀀스를 사용하여 이러한 제한을 극복합니다. 이를 통해 다양한 크기와 형태의 이미지를 효율적으로 처리할 수 있으며, 특히 자연어 처리 모델과의 통합에서 큰 이점을 제공합니다. 예를 들어, TiTok은 1D 시퀀스로 전환하여 정보 중복을 줄였지만, 여전히 고정된 길이의 토큰 시퀀스를 사용하기 때문에 이미지 복잡도에 따른 유연한 표현이 어려웠습니다. 반면 FlexTok은 nested dropout을 통해 토큰 수를 조절하고, Rectified Flow 기반 디코더를 통해 다양한 길이의 토큰 시퀀스를 안정적으로 복원합니다.

FlexTok의 주요 특징

가변 길이 토큰 시퀀스: 이미지의 복잡도에 따라 토큰 수를 동적으로 조절할 수 있습니다.
Coarse-to-Fine 이미지 복원: 생성된 토큰 순서에 따라 점진적으로 이미지 세부 정보가 복원됩니다.
높은 생성 품질: 8~128개의 토큰만으로도 FID < 2의 성능을 달성, 매우 효율적입니다.
텍스트 조건부 생성 지원: 텍스트와 이미지 모두 1D 시퀀스로 표현되기 때문에 text-to-image 생성에 적합합니다.
VAE + Transformer + Flow 기반 디코딩: 잠재 공간 압축, 토큰 생성, 이미지 복원까지 전체 파이프라인이 매우 모듈화되어 있음.

FlexTok 홈페이지

FlexTok 논문

FlexTok GitHub 저장소

FlexTok 라이브러리 사용 예시 코드

github.com/apple/ml-flextok

notebooks/flextok_inference.ipynb

main

{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "99882fb6-33c7-4074-9358-ff0005850e3c",
   "metadata": {},
   "source": [
    "# FlexTok: Resampling Images into 1D Token Sequences of Flexible Length\n",
    "\n",
    "[`Website`](https://flextok.epfl.ch) | [`arXiv`](https://arxiv.org/abs/2502.13967) | [`GitHub`](https://github.com/apple/ml-flextok)\n",
    "\n",
    "Official implementation for: <br>\n",
    "[**FlexTok: Resampling Images into 1D Token Sequences of Flexible Length**](https://arxiv.org/abs/2502.13967), arXiv 2025 <br>\n",
    "*[Roman Bachmann](https://roman-bachmann.github.io/)\\*, [Jesse Allardice](https://github.com/JesseAllardice)\\*, [David Mizrahi](https://dmizrahi.com/)\\*, [Enrico Fini](https://scholar.google.com/citations?user=OQMtSKIAAAAJ), [Oğuzhan Fatih Kar](https://ofkar.github.io/), [Elmira Amirloo](https://elamirloo.github.io/), [Alaaeldin El-Nouby](https://aelnouby.github.io/), [Amir Zamir](https://vilab.epfl.ch/zamir/), [Afshin Dehghan](https://scholar.google.com/citations?user=wcX-UW4AAAAJ)*\n",
    "\n",
    "FlexTok is a tokenizer that enables representing images as an ordered one-dimensional sequence of tokens. It consists of an ViT register encoder mapping images to token sequences, and a ViT register rectified flow decoder mapping token sequences back to images. The encoder and decoder operate on a VAE latent space, and this notebook contains both examples for FlexTok and VAE inference.\n",
    "\n",
    "Please make sure to follow the installation instructions outlined in the official repository. We recommend running this notebook on A100s or H100s and to perform inference in `bfloat16`."
   ]
  },

This file has been truncated. show original

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~