[Deep Research] Test Time Compute 및 Test Time Scaling의 개념과 최신 연구 동향에 대한 보고서

9bow · 2월 18, 2025, 9:30오전

Test Time Compute 및 Test Time Scaling: 개념과 최신 연구 동향

들어가며

OpenAI의 o1, Google의 Gemini 2.0 Flash Thinking, DeepSeek-R1 모델 등을 비롯하여 추론 시점에 연산을 늘려 성능을 개선하는 기법들에 관심이 늘어나고 있습니다. 이와 관련하여 Test Time Compute(TTC) 및 Test Time Scaling에 대해서 OpenAI의 Deep Research에게 요청하여 정리한 보고서를 아래와 같이 공유합니다.

1. Test Time Compute와 Test Time Scaling의 개념 및 차이점

Test Time Compute(TTC) 는 머신러닝 모델이 테스트(추론) 단계에서 사용하는 연산 자원을 의미합니다. 즉 모델을 학습시킨 후 실제로 입력을 받아 출력 결과를 생성할 때 소요되는 연산량과 시간을 가리킵니다 (What is test-time compute and how to scale it?). 한편 Test Time Scaling은 이러한 테스트 단계의 연산량을 조절하거나 늘리는 기법을 뜻합니다. 전통적으로 모델의 성능을 높이기 위해서는 학습 단계에서 더 큰 모델이나 더 많은 데이터를 사용하는 학습 시간 scaling이 주로 논의되었지만, 최근에는 테스트 단계에서 추가적인 계산을 투입하여 성능을 향상시키는 방향이 주목받고 있습니다 ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters).

두 용어의 차이를 정리하면 다음과 같습니다:

Test Time Compute: 모델 추론 시 사용되는 고정된 계산량 또는 자원을 지칭하는 개념입니다. 예를 들어, 학습된 신경망을 한 번 순전파(forward pass)하여 바로 결과를 출력하는 경우 그에 필요한 FLOPs나 연산 시간이 TTC에 해당합니다 (What is test-time compute and how to scale it?).
Test Time Scaling: 추론 시점에 연산량을 유동적으로 조절하는 접근법입니다. 필요에 따라 더 많은 연산 (또는 때로는 적은 연산) 을 투입함으로써 정확도를 높이거나 효율을 조절합니다 (What is test-time compute and how to scale it?). 쉽게 말해 “문제가 어렵다면 모델이 더 오래 생각하도록 하고, 문제가 쉽다면 빠르게 넘어가도록” 하는 아이디어입니다. 이를 통해 정확도-속도 간의 트레이드오프를 실시간으로 관리할 수 있습니다.

최근 OpenAI의 이른바 “O1” 모델은 이러한 개념을 부각시킨 사례로 언급됩니다. O1 모델은 “빠른 직관적 사고 (시스템1)” 대신 “느린 이성적 사고 (시스템2)” 를 도입하여, 질문이 복잡할수록 추론 단계를 늘려 더 깊이 생각하도록 설계되었습니다 (What is test-time compute and how to scale it?). 이는 곧 테스트 단계에서의 추가 연산을 통해 답변의 정확성과 논리성을 향상시킨 것으로, Test Time Compute를 의도적으로 증가시킨 사례입니다. 이처럼 Test Time Scaling은 동일한 모델이라도 추론 시간을 더 주면 더 나은 결과를 낼 수 있도록 하는 기술을 의미하며, “Inference Scaling”이라고 불리기도 합니다 (Computers Are Now Thinking Hard: Next-Level AI And Test-Time ...) (Hugging Face shows how test-time scaling helps small language ...).

정리하면, Test Time Compute는 추론 시 사용되는 연산량 그 자체를 가리키며, Test Time Scaling은 그 연산량을 가변적으로 늘리거나 줄이는 전략입니다. 아래에서는 이러한 개념이 컴퓨터 비전 분야에서 어떻게 활용되고 있으며, 어떤 방법론이 개발되고 있는지 살펴보겠습니다.

2. 주요 방법론 및 접근 방식

테스트 단계에서의 연산을 활용하거나 조절하는 다양한 방법론이 제안되어 왔습니다. 컴퓨터 비전 분야에서는 아래와 같은 접근으로 Test Time Compute/Scaling 개념을 적용하고 있습니다:

2.1 다단계 추론과 반복적 개선 기법

복잡한 문제에 대해 단일 순전파만으로는 최적의 답을 얻기 어려울 때, 여러 단계에 걸쳐 추론을 진행하면서 점진적으로 성능을 높이는 방법입니다. 예를 들어 생각의 사슬(Chain-of-Thought, CoT) 기법은 한 번에 최종 답을 내는 대신, 중간 추론 과정을 일련의 단계로 생성하여 답을 도출합니다 (What is test-time compute and how to scale it?). 원래 대규모 언어모델에서 도입된 이 기법은 모델이 “생각을 글로 풀어가며” 복잡한 문제를 풀게 하여 성능을 향상시켰는데, 이러한 CoT 스타일의 단계적 추론은 비전 분야에도 응용되고 있습니다.

컴퓨터 비전에서는 iterative refinement 형태로 나타나는데, 예를 들어 이미지 생성에 CoT 아이디어를 접목한 연구에서는 이미지를 한 단계씩 생성하고 매 단계에서 품질을 검증 및 수정함으로써 최종 품질을 높였습니다 (What is test-time compute and how to scale it?). 구체적으로, Guo 등(2025)은 이미지 생성 과정의 각 중간 결과를 평가하여 잘못된 방향으로 가면 수정하고, 최종 결과가 텍스트 프롬프트와 어긋나면 피드백을 제공해 이미지를 반복 개선하는 PARM++ 알고리즘을 제안했습니다 (What is test-time compute and how to scale it?) (What is test-time compute and how to scale it?). 그 결과 이미지 생성 성능이 최대 24% 향상되어, 기존 스테이블 디퓨전 3보다 15% 높은 성능을 보였습니다 (What is test-time compute and how to scale it?). 이러한 접근은 마치 사람이 그림을 그릴 때 몇 번이고 고쳐 그리며 완성도를 높이는 과정과 유사하며, Test Time Compute를 늘려 품질을 높인 사례입니다.

또 다른 예로, 객체 검출이나 분할 작업에서 후처리 반복 개선을 들 수 있습니다. 딥러닝 이전에는 CRF나 MRF 같은 추론 알고리즘을 추가로 적용하여 초기 예측을 정교화하곤 했는데, 이는 학습된 모델 출력에 테스트 시간 알고리즘을 추가로 적용한 경우입니다. 현대 딥러닝 파이프라인에서도 cascade RCNN 등 다단계 검출기는 여러 단계의 예측을 거치며 바운딩 박스를 세분화해 나가는데, 이 역시 테스트 단계에서 여러 번의 순전파 및 피드백을 통해 결과를 개선하는 구조입니다.

Self-consistency나 Tree-of-Thought 등 탐색 기반 추론도 다단계 추론의 범주에 포함됩니다. 예를 들어 Self-consistency는 한번이 아니라 여러 번 답을 생성한 후 가장 일관된 답을 고르는 방법으로, 분류 문제라면 테스트 시 N번의 추론을 수행해 다수결 또는 확률이 가장 높은 결과를 선택함으로써 성능을 높입니다 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning) (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning). Tree-of-Thought는 답을 트리 구조로 확장하며 탐색(Search)하는 기법으로, 몬테카를로 트리 탐색과 유사하게 여러 경로를 탐색해 최적 답을 찾습니다 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning). 이러한 방법들은 추론 시간을 늘리고 탐색을 추가하는 대신 정확도를 향상시키며, 복잡한 시각 추론(예: 퍼즐이나 경로 찾기, 이미지 기반 추론 문제)에도 적용 가능성이 연구되고 있습니다.

2.2 동적 신경망 (Adaptive/Dynamic Neural Networks)

동적 신경망은 입력의 난이도나 조건에 따라 모델의 연산 경로나 깊이를 조절하는 모델을 말합니다. 일반적인 CNN이나 Vision Transformer는 모든 입력에 대해 동일한 연산량을 쓰지만, 동적 신경망은 테스트 시 상황에 맞게 연산을 건너뛰거나 추가합니다. 이를 통해 필요한 경우에만 더 많은 계산을 하고, 불필요한 경우 계산을 절약하여 효율을 극대화합니다.

대표적인 예로 스킵 가능한 계층이나 조기 종료(Early-Exit) 구조를 들 수 있습니다. Adaptive Depth Network에서는 계층 일부를 생략할 수 있도록 학습시키고, 추론 때 중요도가 낮은 경로는 통과시키지 않습니다 (Adaptive Depth Networks with Skippable Sub-Paths). Kang 등(2024)은 계층적 잔차 네트워크의 각 스테이지를 두 개의 서브-경로로 나누고, 하나는 핵심 특징을 학습하고 다른 하나는 추가 정제를 담당하도록 훈련했습니다. (Adaptive Depth Networks with Skippable Sub-Paths) 이렇게 하면 두 번째 경로를 생략해도 큰 성능 저하가 없으며, 대신 전체 모델을 다양한 깊이로 조합하여 정확도-효율을 유연하게 선택할 수 있습니다. 이 방법으로 하나의 모델에서 다양한 연산 예산에 맞는 성능을 낼 수 있음을 보였습니다 (NeurIPS 2024).

또 다른 사례로, BlockDrop이나 SkipNet과 같이 ResNet 등의 각 블록을 실시간으로 실행 여부를 결정하는 연구들이 있습니다. 입력이 이미 쉽게 분류될 수 있다면 깊은 계층까지 가지 않고 조기 종료하여 속도를 높이고, 어려운 입력일 경우 모든 계층을 통과시켜 정확도를 확보합니다. 이러한 입력 의존적 계산 조절은 모바일/엣지 디바이스에서 전력 소모를 줄이면서도 성능을 유지하기 위한 방향으로 많이 연구되고 있습니다. 예컨대, CVPR 2023에 발표된 Uzkent 등의 연구는 대규모 비전-언어 모델의 주의(attention) 계층과 토큰을 동적으로 생략하는 방법을 제안했는데, 그 결과 질의-응답(VQA) 등에서 약 50%의 추론 연산 감소를 달성하면서도 정확도 저하는 0.3% 미만으로 억제할 수 있었습니다 (Dynamic inference with grounding based vision and language models - Amazon Science). 이는 강화학습 기반으로 각 계층/토큰의 사용 여부를 결정한 것으로, 필요한 계산만 수행하는 Test Time Scaling의 한 예입니다.

요약하면, 동적 신경망 기법은 테스트 시간에 모델 구조 자체를 유연하게 활용하는 방법론이며, 어려운 입력에 더 깊은 계산 경로를 할당하거나, 불필요한 부분은 건너뛰어 속도를 향상시키는 방식으로 상황별 최적화를 달성합니다.

2.3 테스트 타임 데이터 증강 및 앙상블

Test-Time Augmentation (TTA) 은 비교적 간단하지만 실용적인 방법으로, 테스트 시 입력 데이터에 다양한 변형을 가하여 여러 번 추론한 뒤 결과를 종합하는 기법입니다. 예를 들어 이미지 분류 문제에서 입력 이미지를 여러 각도로 회전하거나 크롭, 좌우 반전 등을 한 복사본들을 모두 모델에 통과시키고, 예측 결과를 평균 또는 투표하여 최종 출력을 얻습니다. 이렇게 하면 단일 입력에 대해서도 모델이 갖는 불확실성을 줄이고 보다 안정적인 예측을 얻을 수 있어 정확도가 향상됩니다. 단, 당연히 추론 횟수가 늘어나므로 계산 비용이 증가하게 됩니다.

컴퓨터 비전 대회나 실제 제품에서도 흔히 사용되는 기법으로, 이미지 분류, 객체 탐지, 세그멘테이션 등에서 multi-crop 평가나 multi-scale 평가 형태로 활용됩니다. 예를 들어, 클래스 불균형이나 작은 객체 검출 상황에서는 다양한 해상도로 이미지를 확대/축소하여 추론하고 결과를 종합하면 성능이 좋아집니다. 이는 Test Time Compute를 수배로 늘리는 대가로 앙상블 효과를 얻는 것으로 볼 수 있습니다.

최근 연구에서는 어떤 증강을 얼마나 사용할지를 학습적으로 최적화하거나, 불확실도가 큰 샘플에만 TTA를 적용하는 등 똑똑한 TTA에 대한 논의도 나타나고 있습니다 (On the Efficiency of AdapTTA: An Adaptive Test-Time Augmentation ...). 또한 TTA는 테스트 타임 적응(Test-Time Adaptation)의 보조 수단으로도 사용되는데, 도메인 변화에 대응하기 위해 입력을 여러 방식으로 변형하여 공통된 특징을 잡아내는 아이디어 등이 연구되고 있습니다 (ICCV 2023 Open Access Repository).

2.4 온더플라이 모델 적응 (Test-Time Adaptation 및 프롬프트 튜닝)

Test-Time Adaptation (TTA) 은 훈련과정에 접근하지 않고, 테스트 시 들어오는 데이터에 맞춰 모델을 업데이트하거나 조정하는 기법을 포괄합니다. 주로 도메인 변화(train과 test 분포 차이)에 대응하기 위해 개발되었으며, 자가 지도 신호나 통계를 활용하여 모델 파라미터 (일부 또는 전체)를 테스트 시에 미세하게 조정합니다. 컴퓨터 비전에서 최근 특히 활발한데, 자율주행처럼 환경이 계속 바뀌는 경우나, 학습 때 보지 못한 새로운 도메인의 이미지가 들어올 때 실시간으로 모델을 적응시켜 성능을 유지하려는 목적입니다 (CVPR 2023 Open Access Repository) (CVPR 2023 Open Access Repository).

대표적인 접근은 Batch Normalization 통계 업데이트와 엔트로피 최소화입니다. Wang 등(2021)의 TENT는 테스트 입력의 예측 분포 엔트로피를 최소화하도록 모델의 배치정규화(BN) 층의 파라미터를 경사하강법으로 조정하여, 라벨 없이도 모델을 새로운 데이터에 맞추는 방법을 보여주었습니다. 이후로도 소스 데이터 없이 (Source-free) 혹은 온라인으로 연속된 데이터 스트림에서 동작하는 다양한 TTA 방법들이 제안되었습니다 (CVPR 2023 Open Access Repository).

예를 들어 RoTTA(Robust Test-Time Adaptation, CVPR 2023)는 시간에 따라 변화하는 연속 데이터(동영상 등) 에서 안정적으로 적응하기 위한 기법으로, 과거 데이터의 통계를 메모리에 저장해 활용하고 시간적 가중치를 두어 급격한 변화와 노이즈에 강인한 적응을 달성했습니다 (CVPR 2023 Open Access Repository) (CVPR 2023 Open Access Repository). 그 결과 복잡한 동적 시나리오에서도 성능 저하 없이 지속적인 테스트 타임 적응이 가능함을 보였습니다 (CVPR 2023 Open Access Repository). 또한 ICCV 2023의 DomainAdaptor 연구는 AdaMixBN이라는 모듈로 학습시 BN 통계와 테스트시 BN 통계를 혼합하여 도메인 차이를 줄이고, 엔트로피 최소화 손실을 개선한 GEM 손실을 제안하여 다양한 이미지 인식 벤치마크에서 최신 방법 대비 향상을 달성했습니다 (ICCV 2023 Open Access Repository) (ICCV 2023 Open Access Repository).

한편, 비전-언어 모델(예: CLIP)의 시대에 들어서는 모델의 본체를 미세조정하지 않더라도 프롬프트를 조절하여 새로운 도메인에 대응하는 시도들이 등장했습니다. SwapPrompt(NeurIPS 2023)는 학습된 프롬프트를 테스트 시 자기 지도적 대조학습을 통해 점진적으로 업데이트함으로써, 프롬프트 수준에서 모델 적응을 수행했습니다 (SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models) (SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models). 이를 통해 이미지넷 및 9개 도메인에서 기존의 테스트 타임 프롬프트 최적화 방법들보다 우수한 성능을 보였으며, 일부 경우 지도학습으로 프롬프트를 튜닝한 경우에 필적하는 정확도까지 달성했습니다 (SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models). 이러한 접근은 거대 비전-언어 모델의 추론 과정을 빠르게 최적화하는 사례로서, 추가 학습 없이도 테스트 시 약간의 “학습”을 수행한다는 점에서 Test-Time Adaptation의 범주에 속합니다.

요약하면, 온더플라이 모델 적응 기법들은 테스트 시 주어지는 데이터의 특성에 모델을 맞추기 위해 가중치를 미세 조정하거나 입력 처리 방식을 변화시키는 접근입니다. 이를 통해 훈련 배포 후에 발생하는 도메인 갭을 메우고, 보다 안정적인 성능을 확보할 수 있습니다.

3. 최근 2년간의 연구 동향 (2023~2024년)

2023년부터 2024년까지 Test Time Compute와 Test Time Scaling 분야는 급격한 관심 상승과 함께 다양한 연구 성과가 발표되었습니다. 주요 동향을 정리하면 다음과 같습니다:

대규모 언어모델의 영향 및 일반화: 2022년 등장한 Chain-of-Thought 및 관련 기법의 성공으로, 추론 단계에서의 “사고 확장” 에 대한 관심이 커졌습니다 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning). 2023년에 이르러 OpenAI는 자사의 비공개 모델인 “O1” 을 통해 체계적인 느린 추론이 얼마나 강력한지를 시연하였고 (What is test-time compute and how to scale it?), 이를 벤치마크 삼아 여러 연구자들이 유사한 원리의 모델 (예: DeepSeek의 R1) 을 개발하였습니다 (What is test-time compute and how to scale it?). 특히 O1과 R1 모델은 강화학습을 통해 다양한 난이도의 문제에 대해 추론 단계를 조절하는 방식을 도입하여, 추론 시간이 늘어날수록 성능이 향상되는 효과를 입증했습니다 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning). 이러한 흐름은 “테스트 시간 연산 할당”을 모델 성능 향상의 새로운 축으로 인식하게 했고, 추론에 얼마만큼의 연산을 투자할 것인가를 최적화하는 연구로 이어졌습니다.
Test-Time Compute vs. 모델 크기: 2024년에는 추론 시간 연산 scaling이 모델 파라미터 scaling 못지않게 효과적일 수 있다는 연구 결과가 나왔습니다. Snell 등(2024)은 다양한 추론-time 전략을 분석한 끝에, 주어진 연산 예산 내에서 최적으로 추론 단계를 활용하면 단순히 거대 모델을 한 번 실행하는 것보다 효율적으로 성능을 높일 수 있음을 보였습니다 ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters). 특히 문제 난이도에 따라 적절한 검색/추론 방법을 선택하는 “compute-optimal” 스케일링 전략을 제안하여, 동일 FLOPs 대비 4배 이상의 효율 향상을 달성했습니다 ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters) ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters). 흥미롭게도, 작은 모델라도 충분한 테스트 타임 연산을 주면 파라미터 수가 14배 큰 모델을 능가할 수 있다는 결과도 보고되었습니다 ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters) ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters). 이는 모델의 추론 알고리즘을 고도화하는 것이 모델 자체를 키우는 것 만큼이나 중요한 방향임을 시사합니다.
컴퓨터 비전 분야에서의 Test-Time Adaptation 열풍: 2023년 CVPR과 ICCV 등의 주요 비전 학회에서는 테스트 타임 도메인 적응 관련 논문이 다수 발표되었습니다. 예를 들어 CVPR 2023의 RoTTA (CVPR 2023 Open Access Repository)와 ICCV 2023의 DomainAdaptor (ICCV 2023 Open Access Repository)는 실험적으로 자율주행 시나리오나 다중 도메인 이미지 분류 환경에서 온라인 적응을 통한 성능 향상을 입증했습니다. 더불어 ICCV 2023 튜토리얼에서도 “보이지 않은 개념에 온더플라이 적응” 이라는 주제로 TTA를 다룰 정도로, 비전 커뮤니티에서 실용적인 배포를 위한 핵심 기술로 부상하였습니다 (ICCV 2023 Tutorial: Test-time Adaptation - YouTube). 특히 라벨 없이 순수 테스트 입력만으로 모델을 지속 학습시키는 방향으로 연구가 진전되어, 시간에 따라 변화하는 연속 데이터 스트림(예: 영상 프레임)에 대응하는 온라인 적응 기법(CoTTA, RoTTA 등)이 발전했습니다. 이러한 흐름은 2024년에도 이어져, 노이즈가 있는 테스트 데이터나 오픈셋(Open-set) 상황에 강인한 TTA 기법, Diffusion 모델을 활용한 TTA 등 다양한 변주가 시도되고 있습니다.
비전-언어 및 멀티모달 모델의 추론 최적화: 거대 멀티모달 모델의 등장과 함께, 추론 단계에서 멀티모달 모델의 성능을 높이는 기법들도 등장했습니다. 앞서 언급한 SwapPrompt(NeurIPS 2023)처럼, 사전학습된 비전-언어 모델의 프롬프트를 테스트 시 최적화하여 도메인 일반화를 개선하는 연구 (SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models)가 있었고, Multimodal LLM의 체계적 추론을 위한 Collective MCTS 방법이 제안되어 멀티모달 추론 데이터셋 (Mulberry-260k) 까지 구축되기도 했습니다 (What is test-time compute and how to scale it?) (What is test-time compute and how to scale it?). 이는 복합적인 영상+텍스트 질의에 대해 모델이 스스로 단계별 추론 경로를 탐색하도록 한 것으로, 기존 공개 모델 대비 상위권 폐쇄형 모델에 필적하는 성능 향상을 달성했다고 보고되었습니다 (What is test-time compute and how to scale it?) (What is test-time compute and how to scale it?). 한편, 강화학습을 통한 이미지 생성 품질 향상 연구 (What is test-time compute and how to scale it?) (What is test-time compute and how to scale it?), Vision transformer에서의 동적 토큰 처리 등도 멀티모달/비전 분야에서 추론 최적화를 위해 활발히 연구되고 있습니다.
효율성과 지속가능성에 대한 고려: Test Time Scaling은 성능 향상에 매력적이지만, 추론 비용 증가라는 trade-off가 존재하기 때문에 효율에 대한 연구도 함께 진행되고 있습니다. 2023~2024년에는 “필요한 만큼만 계산” 하는 방향의 연구가 특히 강조되어, 동적 모델 경량화와 스파스(sparse)한 연산 등이 주목받았습니다. 예를 들어, ViT 기반 검출 모델의 토큰을 필요 시에만 유지하거나 아예 프레임 단위가 아닌 이벤트 단위로 추론하는 등, 낭비되는 연산을 줄이는 Test Time Compute 감소 기법도 발전했습니다 (Dynamic inference with grounding based vision and language models - Amazon Science). 이는 친환경 AI와도 맞닿아 있는 주제로, 추론 단계에서의 에너지 효율을 높이면서 성능 저하를 최소화하려는 연구가 계속되고 있습니다.

요약하면, 최근 2년간 Test Time Compute/Scaling 연구는 한편으로는 성능 극대화를 위해 추론 연산을 늘리는 방향과 다른 한편으로는 효율 향상을 위해 불필요한 연산을 줄이는 방향으로 이중 발전을 이루었습니다. 공통적으로는 “고정된 추론 방식”을 넘어서 데이터와 상황에 맞게 동적으로 모델을 운용하는 철학이 자리잡고 있으며, 이는 여러 주요 학회에서 핵심 주제로 다루어지고 있습니다.

4. 실질적인 응용 사례 및 연구 성과

Test Time Scaling 개념은 다양한 실용 분야에 적용되어 눈에 띄는 성능 개선이나 견고성 향상을 이루고 있습니다. 몇 가지 대표적인 응용과 성과를 소개합니다:

복잡한 문제 해결 (수학, 논리 추론 등): 대규모 언어모델 분야에서 출발한 테스트 시간 연산 증가 전략은, 수학 문제 풀기, 프로그래밍 코드 생성 등 고난도 문제에서 성공을 거두었습니다 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning). 예컨대 GPT 계열 모델은 하나의 문제에 대해 여러 번 답을 시도하고 그중 정답을 고르는 방식(pass@N) 으로 어려운 수학 문제의 정답률을 높였는데, Chen 등(2022)은 단순 크로스엔트로피로 학습한 모델은 훈련을 오래 할수록 오히려 pass@N 성능이 떨어질 수 있다고 지적하며 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning), 테스트 시 여러 샘플을 생성하는 전략에 맞는 새로운 학습 방법을 제안하기도 했습니다. 이러한 연구는 “추론 전략에 맞춘 학습과 추론 설계” 라는 새로운 관점을 열었고 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning) (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning), 실제로 오늘날 복잡한 수학 문제나 체스 같은 복잡한 의사결정 문제에서 MCTS(몬테카를로 트리 탐색) 나 자기 반영(Self-reflection) 등을 활용한 추론-시간 강화가 성과를 내고 있습니다 (Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning). 이처럼 Test Time Scaling은 기존 모델로는 어려웠던 고차원 사고 문제를 해결하는 열쇠로 활용되고 있습니다.
자율주행 및 영상 스트림 처리: 자율주행 자동차나 로봇은 환경의 변화에 실시간으로 적응해야 합니다. Test-Time Adaptation 기법은 이미 자율주행 인식 모듈의 견고성을 높이기 위해 적용되고 있습니다. 예를 들어, 낮에 학습된 모델을 밤에 사용할 때 조명 차이나 센서 특성 변화로 성능이 떨어질 수 있는데, 온보드에서 지속적으로 모델을 보정함으로써 이 문제를 완화합니다. CVPR 2023의 RoTTA 연구에서는 자율주행 시나리오의 연속 영상 프레임에 모델을 점진적으로 적응시켜, 돌발적인 환경 변화에서도 인식 정확도를 유지할 수 있음을 증명했습니다 (CVPR 2023 Open Access Repository) (CVPR 2023 Open Access Repository). 또한 여러 연구에서 라이다(point cloud)나 위성영상 등에서도 test-time self-training이나 feature alignment로 도메인 갭을 줄여 실시간 활용성을 높이는 성과를 내고 있습니다. 이는 안전-critical한 시스템에서 모델의 신뢰성을 높이는 실용적 사례로 주목됩니다.
산업 현장의 품질 검사와 의료 영상: 컴퓨터 비전 모델을 산업용으로 배포할 때, 훈련 세트와 다른 조건의 이미지(새로운 조명, 카메라, 제품 변종 등)가 들어오면 정확도가 떨어질 수 있습니다. 이를 해결하기 위해 테스트 시에 짧은 피드백 루프를 통해 모델을 재조정하는 사례가 있습니다. 예를 들어 의료 영상의 경우, 병원마다 MRI나 CT 장비의 특성이 달라 도메인 차이가 생기는데, 검사 진행 중에 몇 초 정도 모델을 현장 데이터에 적응시켜 추론 정확도를 향상시키는 연구들이 보고되었습니다. 이러한 Test-Time Fine-tuning 접근은 의료영상 분할, 병변 검출에서 추론 시 보정으로 정확도를 높여 임상 적용 가능성을 개선한 사례입니다. (예: MRI 영상에서 한 환자의 스캔을 모델이 순차적으로 처리하면서 앞서 나온 출력들을 자기학습 신호로 활용하여 후속 슬라이스 예측의 정밀도를 높이는 방법 등이 제안됨).
대규모 이미지 인식 및 검색: 이미지넷과 같은 대규모 데이터셋 평가나 실제 이미지 검색 엔진 등에서도 Test-Time augmentation과 앙상블은 여전히 강력한 성능 향상 수단입니다. 많은 2023년 챌린지 우승 솔루션들이 여러 모델의 앙상블 및 TTA를 활용하여 1~2%의 성능 향상을 쟁취했습니다. 예를 들어 이미지넷 분류 상위권 모델들은 좌우반전, 다중크롭, 다중해상도 등의 TTA로 오차율을 낮추는 데 기여했다고 보고됩니다. 이처럼 테스트 단계에서 추가 연산을 활용해 최고 성능을 달성하는 실용 사례는 모델 경량화 추세에도 불구하고 여전히 유효하며, 상용 시스템에서도 성능이 최우선일 경우 TTA가 사용됩니다.
경량 디바이스에서의 효율적 추론: 스마트폰 등의 제한된 환경에서 딥러닝 모델을 구동할 때는 주어진 자원 안에서 최적의 인식 성능을 내는 것이 중요합니다. 동적 신경망 기법은 이미 일부 모바일 모델에 적용되어 사용자 단말의 상황에 맞는 속도/정확도 균형을 제공합니다. 한 예로, 실시간 영상 처리 앱에서 프레임 마다 딥러닝 분석을 수행하되, 변화가 적은 프레임에서는 간단한 연산만 수행하고, 변화가 큰 프레임에서만 복잡한 모델을 돌리는 식의 Adaptive Inference가 연구되었습니다. 또한 전력 조건에 따라 모델이 자동으로 경량화되도록, 배터리가 적을 때는 일부 계층을 생략하여 추론을 빠르게 하고, 전원이 연결되면 풀파워로 동작하는 런타임 재구성 모델도 제안되었습니다 (Adaptive Inference Using Slimmable Early Exit Neural Networks). 이러한 기술들은 사용자 경험을 해치지 않으면서 디바이스 자원을 최적 활용하는 방향으로 실용화되고 있습니다.
이미지 생성 및 콘텐츠 창작: 앞서 언급한 이미지 생성 분야에서도 Test Time Compute의 활용이 두드러집니다. Stable Diffusion 등의 모델에 추론 시 추가 단계를 포함시켜 품질을 높이려는 시도가 한 예입니다. Guo 등(2025)의 연구에서는 생성 과정 중간단계마다 보상모델로 결과를 평가하고 최적 경로를 선택하는 방식을 도입하여, 기존 확산모델 대비 현저한 품질 향상(+24%) 을 이루었습니다 ([2501.13926] Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step). 또한 텍스트-이미지 생성 시에 Chain-of-Thought 프롬프트를 활용, 예를 들어 “이미지를 한 문장으로 묘사 -> 세부 사항 나열 -> 최종 이미지 생성” 식으로 다단계로 프롬프트를 구성하여 생성 결과를 개선하는 등, 생성 AI에서도 추론 절차를 길게 가져가 성능을 높이는 사례가 보고되고 있습니다. 이처럼 Test Time Scaling은 컨텐츠 생성의 창의성 향상과 사용자 요구 충족 측면에서도 응용되고 있습니다.

위와 같이, Test Time Compute 및 Scaling 기법들은 다양한 컴퓨터 비전 응용 분야에서 성능 및 효율 개선을 이끌며 실질적인 가치를 증명하고 있습니다. 특히 배포된 모델의 신뢰성 향상, 도메인 적응, 그리고 고품질 출력 생성 등에 기여하여, 연구단계에서 실용화 단계로 빠르게 넘어가는 추세입니다.

5. 관련 논문 목록 (주요 학회 및 저널 포함)

마지막으로, 앞서 언급한 개념들과 연관된 주요 연구 논문과 자료를 정리합니다. (최근 2년간 발표된 주요 학회/저널 위주)

Yuan et al. (CVPR 2023): "Robust Test-Time Adaptation in Dynamic Scenarios" – 동적으로 변화하는 테스트 스트림에서 온라인 도메인 적응을 구현한 RoTTA 기법 제안 (CVPR 2023 Open Access Repository). 자율주행 등 현실 시나리오에서 배치정규화 안정화, 메모리 샘플링 등을 통해 지속적 적응 달성.
Zhang et al. (ICCV 2023): "DomainAdaptor: A Novel Approach to Test-time Adaptation" – AdaMixBN으로 학습/테스트 통계 혼합 및 GEM 손실을 통해 라벨 없이 모델을 타겟 도메인에 적응시키는 프레임워크 (ICCV 2023 Open Access Repository). 여러 벤치마크에서 SOTA 달성.
Ma et al. (NeurIPS 2023): "SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models" – CLIP 등 비전-언어 모델의 프롬프트를 테스트 단계에서 대조학습으로 업데이트하여 도메인 일반화를 향상시킨 방법 (SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models) (SwapPrompt: Test-Time Prompt Adaptation for Vision-Language Models). ImageNet 등 10개 데이터세트에서 무감독 프롬프트 적응의 효과 입증.
Snell et al. (arXiv 2024): "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" – 테스트 시 연산 할당 최적화에 대한 심층 분석 연구 ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters) ([2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters). 작은 LLM + 충분한 추론 연산으로 대형 LLM 성능 초과 가능성을 제시하고, compute-optimal 전략으로 효율 4배 향상 보고. (NeurIPS/ICLR 2024 제출 논문)
Geiping et al. (arXiv 2025): "Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach" – 언어모델에 재귀적 깊이(unrolling) 구조를 도입하여 임의로 깊은 추론이 가능하도록 한 모델 제안 ([2502.05171] Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach). 추론 단계에서 내부 latent reasoning을 반복하여 토큰 생성 없이도 복잡한 추론 수행. 작은 컨텍스트 창으로도 작동하며, 50억 파라미터 상당의 추론 능력을 35억 모델로 구현. (향후 학회 발표 예정)
Guo et al. (arXiv 2025): "Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step" – 생각의 사슬을 이미지 생성에 도입한 최초의 포괄적 연구 ([2501.13926] Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step) ([2501.13926] Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step). 테스트 시간 검증을 위한 PARM/PARM++ 보상모델을 개발하여, 이미지 생성 과정을 단계별 평가 및 수정함으로써 Stable Diffusion 대비 최대 +24% 성능 개선 달성.
Uzkent et al. (CVPR 2023): "Dynamic Inference with Grounding Based Vision and Language Models" – 비전-언어 트랜스포머의 어텐션 및 토큰을 입력별로 동적으로 조절하는 방법 제안 (Dynamic inference with grounding based vision and language models - Amazon Science). 강화학습 기반 정책으로 MDETR, GLIP 모델에 적용하여 추론 시 최대 ~50% 연산 절약 및 정확도 유지(↓0.3%) 를 실현 (Dynamic inference with grounding based vision and language models - Amazon Science).
Kang et al. (NeurIPS 2024): "Adaptive Depth Networks with Skippable Sub-Paths" – CNN과 ViT에 적용 가능한 계층별 부분 경로 스킵 기법 제안 () (). 자기 지식증류를 통해 서브-경로간 상보적 학습을 수행, 테스트 시 다양한 깊이의 서브네트워크 선택으로 유연한 정확도-속도 조정 달성.
기타 참고 자료:
- Wei et al. (NeurIPS 2022) “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” – CoT 개념 정립 논문. 대형 언어모델의 다단계 추론 능력을 최초로 체계적으로 입증.
- Wang et al. (ICLR 2021) “Tent: Fully Test-Time Adaptation by Entropy Minimization” – 라벨 없이 BN 파라미터를 업데이트하여 테스트 타임 도메인 적응을 수행한 선구적 방법. 이후 다수 TTA 연구의 기본으로 활용.
- Liang et al. (IJCV 2024) “A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts” – 테스트타임 적응에 관한 포괄적 설문 논문. 400편 이상의 최근 논문을 아우르며 기법 분류와 평가를 제시 (Beyond Model Adaptation at Test Time: A Survey - OpenReview). TTA 연구의 전반적인 트렌드와 과제를 파악하는 데 유용.

이상과 같이, Test Time Compute와 Test Time Scaling은 최신 AI 모델의 추론 능력을 극대화하거나 환경 변화에 대응하기 위한 핵심 열쇠로 대두되고 있으며, 다양한 혁신적 연구가 쏟아지고 있습니다. 컴퓨터 비전 분야에서도 이러한 아이디어를 적극 활용하여 더 똑똑하고 유연한 모델을 만드는 추세가 지속될 것으로 전망됩니다.

더 읽어보기

이 글은 OpenAI의 Deep Research 기능으로 정리한 글로, 참고 문헌의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 각 링크의 참고 문헌들도 함께 읽어주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

belovian · 2월 19, 2025, 5:36오전

test-time에 대한 개념을 잘 못잡고 있었는데, 큰 도움이 되었습니다.
감사합니다~

9bow · 2월 19, 2025, 12:41오후

읽어주시고 댓글 남겨주셔서 감사합니다! ^^
요즘 용어들이 많이 나와서 저도 정리할겸 겸사겸사 Deep Research 한 번 돌려봤습니다.
혹시 다른 궁금하신 것이 있으시면 댓글로 알려주시면 OpenAI 버전으로 돌려보고 결과 공유하겠습니다