허깅페이스 Trainer 관련 의문입니다.

khs0415p · 3월 25, 2024, 7:21오전

안녕하세요. 반갑습니다! 자연어 처리관련 일을 하고 있는 한명의 개발자입니다.

과거에 BERT나 GPT-2 정도의 모델을 fine-tuning할때, 보통 Trainer도 직접 구현해서 학습을 했었습니다.

최근 LLM(gemma, llama2)를 full-fine-tuning 하고 싶어서 Huggingface의 Trainer를 사용하여 학습 시도 중에 있습니다.

제 GPU는 H100 80GB이고, 모델 gemma-7b를 로드하면 약 30GB를 사용하며 이상태에서 데이터(max_seq_len = 2048)를 Trainer에 넣고 trainer.train()을 실행하면 약 79GB를 사용하여 학습이 진행됩니다.

제가 궁금한 점은 약 50 step정도 후에 CUDA out of memory 에러가 발생하는데, 첫 step에서 메모리 오류가 발생하지 않고 50 step 후에 발생하는 이유가 무엇일까요? 중간에 데이터가 gpu에서 내려오지 않고 쌓이고 있는건가요 ? 혹시 아시는분이 있으면 지식 공유 부탁드립니다. 감사합니다.

bot · 3월 25, 2024, 7:26오전

아래 답변은 OpenAI의 GPT-4-Turbo 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요! 자연어 처리 작업에 관심이 많으신 것 같아 반갑습니다. 문제 상황에 대해 공유해주셔서 감사합니다. 질문을 요약해보면, Huggingface의 Trainer를 사용하여 LLM(gemma, llama2) 모델을 full-fine-tuning 하시는 과정에서, 초기에는 문제 없이 학습이 진행되다가 약 50 step 후에 CUDA out of memory 에러가 발생하는 상황에 대한 원인과 해결 방안을 찾고 계신 것으로 이해됩니다.

이 문제는 여러 원인에 의해 발생할 수 있지만, 가장 흔한 원인 중 하나는 GPU 메모리 누수(memory leak) 또는 누적되는 중간 계산 결과들 때문일 수 있습니다. PyTorch와 같은 딥러닝 프레임워크는 동적 계산 그래프를 사용하기 때문에, 학습 과정에서 중간 계산 결과들이 메모리에 계속 쌓일 수 있습니다. 특히, 대규모 모델을 사용할 때는 이러한 현상이 더욱 두드러질 수 있습니다.

해결 방안으로는 다음과 같은 몇 가지 방법을 시도해볼 수 있습니다:

Gradient Accumulation: 배치 크기를 줄이는 대신, 여러 스텝에 걸쳐 그래디언트를 누적한 후 업데이트하는 방법입니다. 이를 통해 메모리 사용량을 줄이면서도 큰 배치 크기의 이점을 얻을 수 있습니다.
모델과 데이터 로더 최적화: 모델의 일부 구성 요소가 불필요하게 메모리를 많이 사용하는 경우가 있습니다. 가능하다면 모델 구조를 최적화하거나, 데이터 로더에서 불필요한 데이터 복사를 줄일 수 있는 방법을 찾아보세요.
메모리 프로파일링: PyTorch는 메모리 사용량을 모니터링하고 분석할 수 있는 도구를 제공합니다. 이를 통해 어느 부분에서 메모리 사용량이 급증하는지 파악할 수 있습니다.

예를 들어, gradient accumulation을 사용하는 방법은 다음과 같습니다:

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',          # output directory
    num_train_epochs=3,              # total number of training epochs
    per_device_train_batch_size=4,   # batch size per device during training
    gradient_accumulation_steps=16,  # number of updates steps to accumulate before performing a backward/update pass.
    # Other arguments
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset
)

trainer.train()

이 코드는 gradient_accumulation_steps를 사용하여 그래디언트를 누적하는 방법을 보여줍니다. 이를 통해 실제로 모델이 업데이트되기 전에 여러 스텝에 걸쳐 그래디언트를 누적할 수 있습니다.

메모리 프로파일링에 대한 자세한 정보는 PyTorch 공식 문서에서 찾아볼 수 있습니다:

PyTorch 메모리 관리 문서

제 답변이 정확하지 않을 수도 있으니, 상황에 따라 다른 접근 방법이 필요할 수도 있음을 유념해주세요. 추가적인 질문이나 궁금한 점이 있으시면 언제든지 질문해주시기 바랍니다. 문제 해결에 도움이 되길 바랍니다!

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

bot · 3월 25, 2024, 7:32오전

아래 답변은 Anthropic의 Claude-2 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요. khs0415p님.

Trainer에서 메모리 문제가 발생하는 이유에 대한 질문 감사합니다.

50스텝 후에 메모리 오류가 발생하는 것은 데이터와 gradient가 GPU 메모리에 축적되기 때문인 것 같습니다.

처음에는 메모리 사용량이 30GB였지만, 학습 중에는 추가로 gradient와 optimizer 상태, 출력 등이 저장되기 때문에 사용 메모리가 점점 늘어나게 됩니다.

이는 PyTorch의 automatic differentiation 기능 때문인데, 역전파 시 중간 값을 저장해두고 있다가 나중에 gradient를 계산하는 방식을 사용하기 때문입니다.

따라서 학습 진행에 따라 중간 값이 축적되면서 메모리 부족 에러가 발생하게 된 것 같습니다.

이를 해결하기 위해서는 다음과 같은 방법을 사용할 수 있습니다.

trainer = Trainer(..., gradient_accumulation_steps=2)

위 코드처럼 gradient_accumulation_steps 매개변수를 사용하면 지정된 스텝 만큼 gradient를 축적한 후 역전파를 수행합니다. 이를 통해 메모리 사용량을 줄일 수 있습니다.

또는 수동으로 model.zero_grad()를 호출하여 불필요한 중간 gradient를 주기적으로 지워주는 것도 도움이 될 수 있습니다.

그 밖에 batch size를 줄이거나, mixed precision training도 고려해보세요.

제가 아는 선에서 답변 드렸는데요, 답변에 문제가 있다면 언제든지 댓글 달아주세요. 더 자세한 정보가 필요하면 질문 부탁드립니다. 감사합니다.

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

bot · 3월 25, 2024, 8:02오전

아래 답변은 Google의 Gemini Pro 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요, khs0415p님. 궁금하신 사항을 확인해보겠습니다.

Hugging Face Trainer를 사용하여 LLM을 학습시키면서 CUDA 메모리 부족 오류가 발생한다는 문제를 겪고 계시다고 이해합니다.

이 오류는 다음과 같은 이유로 발생할 수 있습니다.

메모리 누수: 학습 과정에서 메모리가 해제되지 않아 점진적으로 누수됩니다.
과도한 배치 크기: 배치 크기가 너무 커서 GPU 메모리를 초과합니다.
중간 데이터 저장: 트레이너가 중간 데이터나 모델 상태를 메모리에 저장하여 메모리 사용량이 증가합니다.

문제를 해결하려면 다음 단계를 시도해 보십시오.

데이터 로더 다시 검토: 데이터 로더가 데이터를 GPU에 적절하게 전달하는지 확인합니다. 배치 크기가 너무 크지 않고 데이터가 과도하게 로드되지 않아야 합니다.
메모리 프로파일링 수행: GPU 메모리 사용량을 프로파일링하여 메모리 누수 또는 과도한 사용을 확인합니다. NVIDIA Nsight Systems와 같이 프로파일링 도구를 사용할 수 있습니다.
gc.collect() 사용: 명시적으로 가비지 컬렉터를 실행하여 사용되지 않는 메모리를 해제합니다.
Trainer 매개변수 조정: gradient_accumulation_steps 매개변수를 늘리면 배치 크기당 업데이트 횟수를 줄여 메모리 사용량을 줄일 수 있습니다.

또한, Hugging Face에서 제공하는 메모리 관리 가이드를 참조하시기 바랍니다.

답변이 도움이 되셨기를 바랍니다. 문제가 지속된다면 추가 정보를 제공해 주시면 추가 지원을 드리겠습니다.

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

bot · 3월 25, 2024, 8:15오전

아래 답변은 OpenAI의 GPT-4 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요! 자연어 처리 작업에 대한 열정을 가지고 계신 것 같아 보기 좋습니다. 문제 상황에 대해 공유해주셔서 감사합니다. 요약해보자면, Huggingface의 Trainer를 사용하여 LLM(gemma, llama2) 모델을 full-fine-tuning 하시려고 하는데, 학습 중 약 50 step 후에 CUDA out of memory 에러가 발생하는 상황에 대해 궁금해 하시는 것 같습니다. GPU는 H100 80GB를 사용하고 계시며, 모델 로드 시 약 30GB의 메모리를 사용하고, 학습 시작 시 약 79GB까지 메모리 사용량이 증가한다고 하셨습니다.

이 문제에 대한 해결 방안을 제시해보겠습니다. CUDA out of memory 에러가 학습 초기가 아닌 중간에 발생하는 경우, 몇 가지 가능한 원인이 있을 수 있습니다. 가장 흔한 원인 중 하나는 메모리 누수(memory leak)이거나, 배치 크기(batch size)가 너무 크거나, 또는 중간에 메모리 사용량이 증가하는 특정 연산이 있을 수 있습니다.

메모리 누수 확인: PyTorch에서는 torch.cuda.memory_summary() 함수를 사용하여 메모리 사용 상황을 확인할 수 있습니다. 학습 중간중간에 이 함수를 호출하여 메모리 사용량의 변화를 관찰해보세요. 메모리 사용량이 계속 증가한다면 메모리 누수를 의심해볼 수 있습니다.
배치 크기 조정: 메모리 사용량을 줄이는 가장 직접적인 방법 중 하나는 배치 크기를 줄이는 것입니다. 가능하다면 배치 크기를 절반으로 줄여보고 학습을 다시 시도해보세요.
그래디언트 축적(Gradient Accumulation): 배치 크기를 줄이는 것이 성능에 영향을 미칠 수 있다면, 그래디언트 축적 기법을 사용할 수 있습니다. 이는 작은 배치를 여러 번 처리하고, 그래디언트를 축적한 다음에 모델을 업데이트하는 방식입니다. 이를 통해 큰 배치를 사용하는 것과 유사한 효과를 낼 수 있습니다.

# 예시 코드: 그래디언트 축적 사용 예
optimizer.zero_grad()  # 옵티마이저의 그래디언트를 0으로 초기화
for step, batch in enumerate(train_dataloader):
    outputs = model(**batch)
    loss = outputs.loss
    loss = loss / accumulation_steps  # 그래디언트 축적을 위해 손실을 나눔
    loss.backward()
    if (step + 1) % accumulation_steps == 0:  # 축적 단계마다 모델 업데이트
        optimizer.step()
        optimizer.zero_grad()

모델의 특정 부분에 대한 메모리 최적화 고려: 모델의 특정 부분이 메모리를 많이 사용할 수 있습니다. 예를 들어, attention 메커니즘이나 특정 층에서 메모리 사용량이 급증할 수 있습니다. 이 경우, 모델 구조를 조정하거나, 특정 연산을 최적화하는 방법을 고려해볼 수 있습니다.

CUDA out of memory 문제는 다양한 원인으로 발생할 수 있으므로, 위의 방법들을 시도해보시면서 문제의 원인을 좁혀나가는 것이 중요합니다.

더 자세한 정보와 예제 코드는 PyTorch 공식 문서에서 찾아보실 수 있습니다. 특히 메모리 관리와 관련된 부분은 다음 링크에서 유용한 정보를 얻으실 수 있습니다: PyTorch 메모리 관리.

제 답변이 정확하지 않을 수도 있으니, 문제 해결에 도움이 되길 바라며, 추가적인 질문이나 정보가 필요하시면 언제든지 질문해주세요.

이 답변이 도움이 되셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

sunghyunjun · 3월 26, 2024, 8:53오전

학습 시에 GPU memory 사용량은 상당히 fluctutation이 있습니다. CUDA OOM의 원인은 정말 다양할 수 있어서, 단계적인 접근이 필요해보입니다.

작년 12월에 pytorch blog에 좋은 글이 있는데, 여기서 인사이트를 얻으실 수도 있을 것 같습니다. 아래 블로그에서는 파이썬 변수의 순환참조 문제를 다루고 있습니다.

한편으로는, pytorch DataLoader의 Memory leak 관련 고질적인 문제가 있습니다.
DataLoader + num_workers > 0 + linux fork, copy and write 가 결합하여 발생하는 문제입니다.

https://github.com/pytorch/pytorch/issues/13246#issuecomment-1975398567

khs0415p · 3월 26, 2024, 11:25오후

감사합니다!! 몇 step 이후에 GPU memory 사용량이 변하는것이 비정상적인 상황은 아니군요!!