[도움 요청] 첫 arXiv 논문 제출을 위한 cs.LG 카테고리 Endorsement 부탁드립니다!

안녕하세요, 선배 연구자님들! 저는 현재 랩실에서 컴퓨터 비전과 딥러닝을 공부하고 있는 학부 연구생입니다.

이번에 제 개인 연구로 진행해 오던 지식 증류(Knowledge Distillation) 관련 논문을 마무리하여 처음으로 arXiv에 프리프린트를 등록하려고 합니다. 그런데 cs.LG (Machine Learning) 카테고리 첫 제출이라 Endorsement가 필요하다는 창이 떠서, 염치 불고하고 이곳 커뮤니티에 도움을 요청하게 되었습니다.

제가 작성한 논문의 간략한 요약은 다음과 같습니다.

  • 논문 제목: TALS: Teacher-Anchored Logit Scaling for Hyperparameter-Free Knowledge Distillation

    핵심 아이디어: * Vanilla KD에서 항상 그리드 서치(Grid Search)로 찾아야 했던 온도 초매개변수 TEMPERATURE를 완전히 제거하는 방법론입니다.

    • 미리 학습된 교사 모델의 Logit 표준편차 시그마(t)를 교사 모델의 Confidence로 간주하고, 이를 이용해 T = 시그마(t)^2 로 설정합니다.

    • Gradient Scale과 CE/KD 믹싱 비율까지 모두 시그마(t) 하나로 통일하여, 샘플 단위로 적응하는(Sample-wise adaptive) 완전한 Zero-tuning 증류를 제안합니다.

    실험 결과: * CIFAR-100 (ResNet-34 → ResNet-18) 환경에서 단 1번의 학습만으로 83.27%를 달성하여, 4번의 그리드 서치를 거친 Vanilla KD 평균(83.11%)과 수동 튜닝된 DKD(83.19%)의 성능을 뛰어넘었습니다.

아직 학부생의 시각에서 작성한 논문이라 부족한 점이 많겠지만, 이 아이디어가 세상에 빛을 볼 수 있도록 선배님들께서 길을 열어주시면 정말 감사하겠습니다!

바쁘시겠지만, 혹시 자격이 되시는 분께서 아래 링크를 통해 Endorse를 승인해 주시면 큰 힘이 될 것 같습니다.

긴 글 읽어주셔서 감사합니다. 모두 연구에 좋은 결과 있으시길 바랍니다!

Abstract
Knowledge Distillation (KD) compresses large teacher
models into compact students by aligning their output distributions.
A central bottleneck is the temperature hyperparameter
T, whose optimal value varies per architecture
and dataset, requiring costly grid search. Recent
work Sun et al. [2] (CVPR 2024 Highlight) partially addresses
this by introducing Z-score normalisation, but retains
a residual base temperature τ that still demands manual
selection. We propose TALS (Teacher-Anchored
Logit Scaling), which completely replaces T — and every
other hyperparameter — with the per-sample teacher
logit standard deviation σt,i. The effective temperature
Ti = σ
2
t,i, gradient scale Si = σ
4
t,i, and CE/KD mixing
ratio αi are all derived from this single frozen-teacher
statistic, achieving true Zero-tuning. On CIFAR-100
(ResNet-34→ResNet-18, SAM+AutoAugment+Cutout),
TALS achieves 83.27% ± 0.20% across three seeds in a
single training run, surpassing the Vanilla KD grid-search
average of 83.11% (four runs) and the manually tuned
DKD baseline (83.19%).