머신러닝(ML) 및 그 이상을 위한 행렬 미적분학(Matrix Calculus) 강의 자료 및 강의노트 [PDF/영문/101p]

Matrix Calculus 강의노트 소개

MIT 수학과에서 제공하는 ‘행렬 미분학: 머신 러닝과 그 너머(Matrix Calculus for Machine Learning and Beyond)’ 강의 자료(MIT 18.063)가 GitHubarXiv에 공개되었습니다. 해당 강의는 MIT의 Alan Edelman과 Steven G. Johnson 교수가 강의하였으며, 머신러닝, 최적화, 과학적 계산 등 다양한 분야에서의 응용을 염두에 두고 설계한 강의라고 합니다.

행렬 미분학(Matrix Calculus)은 고등 수학과 머신러닝의 경계에서, 벡터와 행렬을 인풋이나 아웃풋으로 받는 함수의 미분을 다루는 학문입니다. 특히, 이 강의에서는 단순한 그라디언트 계산을 넘어서, 행렬 연산, 고차 미분, 오토디프(AD, Automatic Differentiation)까지 포함한 실전 미분 기법들을 깊이 있게 다루고 있습니다. 복잡한 모델의 학습과정에서 그라디언트 계산은 필수적이며, 이를 효율적으로 수행하기 위해 행렬 미분학의 이해가 요구됩니다.

기존의 스칼라 중심의 미적분학과 달리, 행렬 미분학은 다변수 함수와 행렬 값을 가지는 함수의 미분을 다룹니다. 이는 벡터와 행렬 연산의 복잡성을 고려해야 하므로, 보다 일반화된 접근이 필요합니다. 예를 들어, 전통적인 체인 룰은 행렬 미분학에서 야코비안(Jacobian) 행렬을 활용한 형태로 확장됩니다. 또한, 이 강의는 단순한 계산 스킬을 넘어서, 왜 그런 수식이 나오는지, 각 연산이 어떤 의미를 갖는지를 탐구합니다.

주요 주제

MIT의 이 강의 노트 및 자료에서 다루는 주요 주제는 다음과 같습니다:

  • 선형 연산자로서의 도함수: gradient, Jacobian을 넘어서 arbitrary vector space에서의 linear approximation.

  • 행렬을 입력/출력으로 하는 함수의 미분: 예) determinant, inverse, Kronecker product, matrix vectorization.

  • 행렬 분해와 제약 조건 하의 미분: 예) SVD, eigenvalue decomposition, orthogonal matrix 제약 조건 하의 미분.

  • 고차원 체인 룰: forward/reverse composition, computational graph 상의 chain rule.

  • forward/reverse mode 수동 및 자동 미분

  • Adjoint method: 미분 방정식이나 비선형 시스템 해의 미분을 위한 pullback 연산.

  • 비선형 방정식 근 찾기 및 최적화 응용: Newton method, steepest descent.

  • 2차 도함수와 해시안, 쿼드러틱 근사 및 quasi-Newton 기법

  • 머신러닝 및 공학 문제에서의 실전 응용


주차별 강의 내용에 대해서는 GitHub 저장소에서 확인하실 수 있으며, 전체 강의 내용은 arXiv에 공개된 PDF 문서를 참고해주세요!

:github: 강의 내용 소개

:scroll: 강의 PDF 문서

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요