LLM Architecture Gallery 소개
최근 인공지능 분야, 특히 대규모 언어 모델(LLM)의 발전 속도는 경이로운 수준입니다. 새로운 모델이 출시될 때마다 단순히 매개변수(Parameter)의 규모만 커지는 것이 아니라, 내부 아키텍처(Architecture) 역시 혁신적으로 진화하고 있습니다. 이러한 빠른 변화의 흐름 속에서 AI 개발자와 연구자들이 각 모델의 구조적 차이점과 기술적 발전 과정을 명확하게 추적하고 이해하는 것은 매우 중요한 과제가 되었습니다.
머신러닝 권위자이자, 국내에서는 '밑바닥부터 만들면서 배우는 LLM(길벗 출판사, 2025년 9월 출간)' 도서의 저자로 알려진 세바스찬 라시카(Sebastian Raschka)가 정리 및 공개한 LLM Architecture Gallery는 이러한 개발자들의 니즈를 완벽하게 충족시켜 주는 프로젝트입니다. 2019년에 출시된 초기 모델부터 2026년 최신 오픈웨이트(Open-Weight) 모델에 이르기까지, 다양한 LLM의 아키텍처 도식(Figure)과 주요 제원(Fact sheet)을 모아놓은 직관적인 시각적 레퍼런스를 제공합니다.
LLM 아키텍처 갤러리(LLM Architecture Gallery)는 단순히 모델의 크기나 벤치마크 성능을 나열하는 것을 넘어, 어텐션 메커니즘(Attention Mechanism), 정규화(Normalization) 방식, MoE(Mixture of Experts) 라우팅 기법 등 기술적인 내부 진화 과정을 한눈에 파악할 수 있도록 돕습니다. 복잡한 논문이나 기술 문서를 일일이 찾아 분석하지 않아도, 갤러리 내의 다이어그램과 요약 정보를 통해 모델 간의 구조적 유사성과 차이점을 쉽게 비교 분석할 수 있어 S/W 엔지니어들에게 매우 유용한 실무 참고 자료가 됩니다.
LLM Architecture Gallery 데이터 구조 및 활용 방식
이 갤러리는 오픈소스 저장소를 통해 메타데이터 형태로 관리되며, 이를 기반으로 웹사이트에 시각적 카드가 생성됩니다.
-
데이터 소스: 모든 아키텍처 정보는 GitHub 저장소의
models.yml파일에서 관리됩니다. 이 파일에는 각 모델의 이미지 경로, 출시일, 주요 팩트 시트 필드(파라미터 수, 디코더 타입, 어텐션 방식 등) 및 관련 논문/코드 링크가 포함되어 있습니다. -
고해상도 시각화: 각 모델의 내부 트랜스포머(Transformer) 블록 구조, 어텐션 방식의 변화, 전문가(Expert) 구성 등을 상세히 도식화하여 제공합니다.
베이스라인 및 전통적인 Dense 아키텍처
초기 모델과 상대적으로 규모가 작은 최신 온디바이스(On-device) 모델들은 여전히 모든 파라미터가 연산에 참여하는 Dense(밀집) 디코더 스택을 채택하고 있습니다.
-
GPT-2 XL (1.5B): 2019년에 공개된 모델로, 드롭아웃(Dropout), GELU, LayerNorm 및 완전한 멀티 헤드 어텐션(MHA)을 사용하는 고전적인 디코더 스택의 기준점(Baseline) 역할을 합니다.
-
Llama 3 (8B): GQA(Grouped-Query Attention)와 RoPE(Rotary Position Embedding)를 적용한 현대적인 Dense 모델의 표준 설계 방식을 보여줍니다.
-
OLMo 2 & OLMo 3 시리즈: 일반적인 Pre-norm 대신 잔차 연결(Residual) 내부에 Post-norm을 적용하여 학습 안정성을 높였습니다. 특히 최신 OLMo 3 32B는 GQA, QK-Norm과 함께 SWA(Sliding Window Attention)를 3:1 비율로 혼합하여 콘텍스트 처리 능력을 크게 개선했습니다.
초대형 스케일 확장을 위한 희소(Sparse) MoE 구조
파라미터 수를 획기적으로 늘리면서도 추론(Inference) 단계의 연산 효율성을 유지하기 위해 거대 모델들은 MoE 아키텍처를 표준처럼 도입하고 있습니다.
-
DeepSeek 패밀리 (V3, R1, V3.2): 총 671B 파라미터 중 37B만 활성화되는 대표적인 MoE 모델입니다. MLA(Multi-head Latent Attention)와 공유 전문가(Shared Expert) 노드를 결합하여 거대한 스케일에서도 실용성을 확보했습니다. R1 모델은 V3 아키텍처를 그대로 유지한 채 추론 중심의 학습(Reasoning-oriented tuning)을 적용했으며, 최신 V3.2는 긴 문맥 처리 비용을 줄이기 위해 DeepSeek Sparse Attention을 새롭게 추가했습니다.
-
GPT-OSS (20B, 120B): OpenAI가 공개한 오픈웨이트 MoE 모델입니다. 슬라이딩 윈도우 어텐션(SWA)과 글로벌 어텐션 레이어를 번갈아 교차 적용하는 방식(Alternating layers)을 채택했으며, 어텐션 바이어스(Bias) 메커니즘을 포함하고 있습니다.
-
Mistral 3 Large (673B) 및 GLM-5 (744B): 최근 출시된 초대형 모델들로, DeepSeek의 성공적인 아키텍처(MLA + MoE)를 적극적으로 수용했습니다. GLM-5의 경우 MLA와 DeepSeek Sparse Attention을 동시에 채택하여 플래그십 규모의 추론을 고속화했습니다.
선형 어텐션 및 하이브리드(Hybrid) 아키텍처의 부상
기존 트랜스포머의 2차 시간 복잡도(Quadratic Complexity) 연산 한계를 극복하기 위해, 완전히 새로운 어텐션 메커니즘이나 상태 공간 모델(SSM)을 결합한 하이브리드 구조가 2025년 하반기부터 본격적인 트렌드로 자리 잡았습니다.
-
Qwen3 및 Qwen3.5 시리즈: 4B 크기의 Dense 모델부터 최대 397B에 달하는 MoE 라인업을 갖추고 있습니다. 특히 최신 메인라인 모델인 Qwen3.5 (397B)는 기존 어텐션 대신 Gated DeltaNet과 Gated Attention을 혼합한 희소 하이브리드(Sparse hybrid) 구조를 전면 도입하여 512개의 전문가를 운용합니다.
-
Nemotron 3 Nano/Super (NVIDIA): 트랜스포머와 상태 공간 모델인 Mamba-2를 극단적으로 결합한 하이브리드 MoE입니다. GQA 레이어를 최소화하고 Mamba-2 블록을 주력으로 배치하여 속도를 극대화했으며, 120B Super 버전은 잠재 공간(Latent-space) MoE와 네이티브 투기적 해독(Speculative decoding) 기능을 탑재했습니다.
-
Kimi Linear (48B-A3B): 트랜스포머 백본을 유지하되, 전체 어텐션 레이어의 상당수를 Kimi Delta Attention으로 교체하고 MLA 블록에 NoPE(위상 인코딩 제거)를 결합하여 롱 콘텍스트 효율성을 극대화한 선형 어텐션 하이브리드 모델입니다.
LLM Architecture Gallery 공식 홈페이지
LLM Architecture Gallery 관련 문서/블로그
갤러리의 각 모델은 세바스찬 라시카의 상세한 아키텍처 분석 연재 블로그 시리즈를 기반으로 합니다. 주요 블로그는 다음과 같습니다:
The Big LLM Architecture Comparison
From GPT-2 to gpt-oss: Analyzing the Architectural Advances
A Dream of Spring for Open-Weight LLMs
LLM Architecture Gallery 프로젝트 GitHub 저장소
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()















