OpenAI와 Broadcom이 공개한 첫 자체 LLM 추론 전용 칩 Jalapeño (feat. Celestica)

Jalapeño 소개

OpenAIBroadcom(NASDAQ: AVGO)이 OpenAI의 첫 자체 추론 가속기 Jalapeño(할라페뇨) 를 공개했습니다. OpenAI는 이 칩을 자사 첫 "지능 프로세서(Intelligence Processor)"로 부르며, 대규모 언어 모델(Large Language Model, LLM) 추론을 위해 백지 상태에서 새로 설계한 가속기라고 설명합니다. Jalapeño는 두 회사가 함께 만들어 갈 다세대(multi-generation) 컴퓨팅 플랫폼의 첫 번째 AI 가속기이기도 합니다.

여기서 핵심은 Jalapeño가 기존 AI 워크로드용 칩을 추론에 맞게 개조한 것이 아니라, 처음부터 LLM 추론만을 겨냥해 설계되었다는 점입니다. OpenAI는 ChatGPT, Codex, API 등 매일 운영하는 시스템과 향후 에이전트형 제품의 요구사항, 그리고 자사 모델 로드맵에서 얻은 커널(kernel), 메모리 이동, 네트워킹, 서빙(serving) 패턴에 대한 이해를 바탕으로 칩 아키텍처를 직접 정의했습니다. 실제로 Jalapeño의 엔지니어링 샘플은 이미 실험실에서 양산 목표 주파수와 전력으로 GPT-5.3-Codex-Spark를 포함한 ML 워크로드를 구동하고 있다고 합니다.

이번 발표가 주목받는 이유는 단순히 새 칩 하나가 나왔기 때문이 아닙니다. OpenAI는 그동안 프론티어 모델과 그 위의 제품을 만드는 회사였는데, 이제 그 아래의 인프라, 즉 칩 아키텍처까지 직접 설계하는 단계로 내려왔습니다. 모델을 가장 잘 아는 회사가 그 모델을 돌릴 하드웨어를 직접 그린다는 발상으로, 이는 Google이나 AWS 같은 하이퍼스케일러들이 걸어온 길을 OpenAI도 본격적으로 따라가기 시작했다는 신호입니다. 한편 OpenAI가 Broadcom과 자체 칩을 논의 중이라는 소식은 이전부터 전해졌던 내용으로, 이번 발표는 그 협력이 실제 실리콘으로 결실을 맺었음을 보여줍니다.

왜 지금 추론 전용 칩인가: 학습에서 추론으로 옮겨가는 무게중심

AI 칩 이야기는 오랫동안 학습(training) 중심이었습니다. 거대 모델을 훈련하는 데 막대한 연산이 필요했고, 그 시장은 사실상 NVIDIA의 GPU가 독점해 왔습니다. 그러나 모델이 실제 서비스로 배포되어 수억 명이 매일 사용하는 단계에 이르면, 비용의 무게중심은 학습에서 추론(inference), 즉 이미 훈련된 모델로 응답을 생성하는 쪽으로 옮겨갑니다. ChatGPT처럼 상호작용형 제품에서는 한 번의 학습보다 누적되는 추론 호출이 훨씬 더 큰 운영 비용과 에너지를 차지하게 됩니다.

추론 워크로드는 학습과 성격이 다릅니다. 학습이 거대한 배치(batch)를 한꺼번에 처리하는 처리량(throughput) 중심이라면, 대화형 추론은 사용자가 기다리는 시간을 줄이는 지연 시간(latency) 이 핵심입니다. 범용 가속기로는 이 둘을 동시에 만족시키기 어렵습니다. 그래서 빅테크 기업들은 자사 워크로드에 맞춘 맞춤형 반도체(Application-Specific Integrated Circuit, ASIC) 를 직접 설계하기 시작했고, 이는 NVIDIA 의존도를 낮추고 전력당 성능(performance per watt)을 끌어올리려는 흐름과 맞물려 있습니다.

이러한 맥락에서 보면 OpenAI의 Jalapeño는 갑작스러운 일탈이 아니라, 이미 여러 기업이 걷고 있는 자체 실리콘 전략의 연장선입니다. 주요 사례를 정리하면 다음과 같습니다.

기업 자체 칩 주요 특징
Google TPU 2016년부터 운영, 학습과 추론 모두 담당
AWS Trainium / Inferentia 학습용 Trainium, 추론용 Inferentia로 분리
Meta MTIA 추천 및 랭킹 추론에 최적화
Microsoft Maia Azure 데이터센터용 AI 가속기
OpenAI Jalapeño LLM 추론 전용, 2026년 말 배포 예정

흥미로운 점은 국내에서도 리벨리온 같은 NPU 기업이 추론용 AI 반도체를 만들며 같은 흐름에 합류해 있다는 것입니다. 추론 전용 칩은 더 이상 일부 하이퍼스케일러만의 영역이 아니라, AI 인프라 경쟁의 핵심 전장이 되어가고 있습니다.

Jalapeño의 설계 철학: LLM 추론을 위한 백지 설계

OpenAI가 강조하는 Jalapeño의 차별점은 "범용 가속기를 LLM에 맞춘 것"이 아니라 "현대 LLM 추론을 위한 백지 설계(blank-slate design)"라는 점입니다. 목표는 오늘날 최고 수준 AI 가속기의 연산 능력과 처리량을 유지하면서도, 가장 빠른 전용 추론 시스템에 가까운 지연 시간을 달성하는 것입니다. OpenAI는 이 조합이 대규모 상호작용형 LLM 제품에 특히 적합하다고 설명합니다.

기술적으로 Jalapeño 아키텍처는 데이터 이동(data movement)을 줄이고 연산, 메모리, 네트워킹 자원의 균형을 맞추는 데 초점을 둡니다. AI 가속기에서 실제 성능을 깎아먹는 가장 큰 요인 중 하나가 칩 안팎으로 데이터를 옮기는 비용인데, 이를 줄이면 이론적 최대 성능(theoretical peak)에 훨씬 가까운 실현 활용률(realized utilization) 을 얻을 수 있습니다. Broadcom은 여기에 실리콘 구현 기술과 Tomahawk 네트워킹 실리콘을 더해 이 플랫폼을 대규모 양산 단계로 끌어올리는 역할을 맡습니다.

OpenAI 하드웨어 프로그램을 이끄는 Richard Ho는 칩이 모델의 가장 중요한 워크로드를 하드웨어의 이론적 한계에 가깝게 실행하도록 설계되었다고 말합니다.

"Jalapeño는 OpenAI 연구자들과의 긴밀한 협력에서 얻은 세부 통찰을 바탕으로, LLM 추론을 위해 처음부터 설계되었습니다. 우리는 프론티어 AI 모델에 가장 중요한 커널, 메모리 이동, 네트워킹, 서빙 패턴을 중심으로 아키텍처를 최적화했습니다."

"Jalapeño was designed from the ground up for LLM inference using detailed insights from our close collaboration with OpenAI researchers." — Richard Ho, OpenAI 하드웨어 프로그램 총괄

다만 OpenAI는 아직 최종 성능을 측정하는 단계이며, "초기 테스트 기준 Jalapeño가 현재 최고 수준 대비 전력당 성능에서 상당히 앞선다"는 것은 어디까지나 OpenAI 자체의 초기 평가라는 점을 명확히 해 둘 필요가 있습니다. 구체적인 성능 수치를 담은 기술 보고서는 향후 몇 달 안에 공개될 예정입니다.

9개월 만의 테이프아웃, 그리고 AI가 설계를 도운 칩

이번 발표에서 가장 눈에 띄는 대목 중 하나는 개발 속도입니다. Jalapeño는 초기 설계부터 제조 단계의 테이프아웃(tape-out), 즉 칩 설계를 최종 확정해 생산에 넘기는 시점까지 단 9개월이 걸렸습니다. OpenAI는 이것이 고성능 첨단 반도체 분야에서 "지금까지 가장 빠른 ASIC 개발 주기로 믿는다"고 밝혔는데, 이 또한 자사 주장이라는 점을 감안해 받아들이는 것이 좋습니다.

이 속도의 배경에는 OpenAI 엔지니어링 팀과의 깊은 소프트웨어-하드웨어 공동 개발, Broadcom의 실리콘 구현 역량, 그리고 OpenAI 모델 자체를 설계와 최적화 과정에 활용한 것이 있습니다. 사용자에게 서비스되는 바로 그 모델이 다음 세대 모델을 돌릴 인프라를 개선하는 데 쓰인 셈입니다. AI가 엔지니어의 칩 설계를 더 빠르게 도울 수 있다면, 이는 업계 전체의 연산 비용을 낮추고 첨단 AI 접근성을 넓히는 방향으로 이어질 수 있습니다. AI를 활용한 칩 설계 자체는 새로운 시도가 아니며, 강화학습(Reinforcement Learning)으로 칩 배치를 생성하는 AlphaChip 같은 연구가 이미 그 가능성을 보여준 바 있습니다.

파트너십과 배포 계획: 기가와트 규모를 향해

Jalapeño는 단일 칩이 아니라 다세대 컴퓨팅 플랫폼의 첫걸음으로 설계되었습니다. 이 플랫폼은 OpenAI가 설계한 가속기에 Broadcom의 실리콘 구현, 네트워킹, 연결 기술, 그리고 Celestica의 보드, 랙, 시스템 통합 역량이 결합된 형태입니다. 칩 하나를 넘어 보드와 랙, 데이터센터 시스템까지 하나의 스택으로 묶는 구조입니다.

배포 일정도 구체적입니다. Broadcom CEO Hock Tan은 이 협력이 다세대 로드맵의 시작에 불과하며, 2026년부터 Microsoft를 비롯한 파트너들과 함께 기가와트(gigawatt) 규모의 데이터센터 배포를 가능하게 할 것이라고 밝혔습니다.

"OpenAI와의 협력은 향후 10년간 AI에 필요한 물리적 인프라를 확장하겠다는 근본적인 약속을 의미합니다. 이는 다세대 로드맵의 시작일 뿐입니다."

"Our collaboration with OpenAI represents a fundamental commitment to scaling the physical infrastructure required for the next decade of AI." — Hock Tan, Broadcom 회장 겸 CEO

Jalapeño는 2026년 말 초기 배포를 목표로 하며, 이후 수년에 걸쳐 확대될 예정입니다. 흥미롭게도 OpenAI의 첫 칩 샘플은 Broadcom 회장 겸 CEO Hock Tan과 Charlie Kawwas 사장이 OpenAI CEO Sam Altman과 Greg Brockman 사장에게 직접 전달했는데, 이는 OpenAI가 자사 모델과 제품의 전체 스택을 직접 구축하려는 전략에서 중요한 이정표라는 상징적 의미를 담고 있습니다.

풀스택 전략과 플라이휠

OpenAI가 이번 발표에서 반복해 강조하는 개념은 "풀스택(full-stack) 우위"입니다. OpenAI는 프론티어 모델을 개발하고 그 위에 제품을 만드는 것을 넘어, 그 아래의 인프라인 칩 아키텍처, 커널, 메모리 시스템, 네트워킹, 스케줄링, 배포 시스템, 그리고 제품 경험까지 모든 계층을 직접 설계하고 있습니다. 스택 전체를 운영하기 때문에 각 계층을 "모델을 더 빠르고, 더 안정적이며, 더 저렴하게"라는 동일한 목표를 중심으로 최적화할 수 있다는 논리입니다.

OpenAI는 이를 플라이휠(flywheel) 로 설명합니다. 더 나은 인프라는 연산 효율을 높이고, 높아진 연산 효율은 더 나은 학습과 서빙을 가능하게 해 더 뛰어난 모델로 이어집니다. 더 좋은 모델은 더 좋은 제품이 되고, 더 많은 사용과 수익을 낳아 다시 다음 세대 인프라에 재투자됩니다. OpenAI 사장이자 공동 창업자인 Greg Brockman은 이 전략의 목적을 다음과 같이 요약합니다.

"세계는 연산 기반 경제로 이동하고 있습니다. Jalapeño는 연산을 더 풍부하게 만들어 AI를 더 빠르고, 더 안정적이며, 사람과 기업에게 더 저렴하게 만들려는 장기적인 풀스택 인프라 전략의 일부입니다."

"The world is moving to a compute-powered economy." — Greg Brockman, OpenAI 사장 겸 공동 창업자

시사점

Jalapeño는 아직 양산 전 단계이고, 공개된 구체적 성능 수치도 없으며, 핵심 주장 상당수가 OpenAI 자체 평가에 기대고 있습니다. 따라서 "현재 최고 수준을 능가한다"는 표현은 향후 기술 보고서와 실제 배포 결과로 검증되어야 합니다. 그럼에도 이번 발표가 가지는 의미는 분명합니다.

첫째, AI 인프라 경쟁의 축이 학습에서 추론으로, 그리고 범용 GPU에서 워크로드 맞춤형 ASIC으로 이동하고 있음을 OpenAI라는 가장 큰 추론 수요자가 직접 확인해 주었습니다. 둘째, 모델, 커널, 서빙 시스템을 가장 잘 아는 주체가 칩을 설계할 때 어떤 최적화가 가능한지를 보여주는 사례가 될 것입니다. 셋째, AI 모델을 칩 설계에 활용해 9개월 만에 테이프아웃에 이르렀다는 점은, 반도체 설계 주기 자체가 AI로 단축될 수 있다는 가능성을 시사합니다. PyTorch와 같은 프레임워크 위에서 모델을 다루는 개발자 입장에서는, 앞으로 추론 비용과 지연 시간이 어떤 하드웨어 위에서 결정되는지를 이해하는 것이 점점 더 중요해질 것입니다.

:scroll: OpenAI and Broadcom unveil LLM-optimized inference chip 소개 블로그

https://openai.com/index/openai-broadcom-jalapeno-inference-chip/

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다!
텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다. :smiley:

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: