어떻게 Enterprise-Ready Foundation Models을 만드는가
IBM Technology 의 Youtube 영상을 번역하였습니다.
[ChatGPTers 유민수 번역]
제 이름은 케이트 솔(Kate Soll)이고, 저는 IBM 리서치의 비즈니스 전략 담당 선임 관리자입니다. 오늘은 기업 환경에서의 기반 모델의 신뢰성과 효율성을 개선할 수 있는 다양한 전략에 대해 간략하게 설명하겠습니다. 기반 모델은 데이터, 아키텍처, 학습의 몇 가지 주요 구성 요소로 나눌 수 있습니다. 각 영역에 대해 효율성과 모델 신뢰성을 개선하기 위해 사용할 수 있는 다양한 전략과 기술이 있습니다. 먼저 데이터에 대해 이야기 해보겠습니다. 데이터에 대해 이야기할 때는 데이터의 양과 관련하여 이야기합니다.
기반 모델을 사용할 수 있습니다. 또한 IBM 리서치에서 구축한 슈퍼컴퓨터인 Vela에서 모든 학습을 수행했으며, 스택 전체를 최적화하여 학습과 추론이 최대한 효율적으로 이루어지도록 했습니다. 그리고 IBM 리서치는 인간의 피드백을 통한 강화 학습 등 다양한 고급 정렬 기술을 연구하고 있으며, 모델이 어떤 유형의 행동을 보일 수 있는지에 대한 엄격한 규칙을 따르도록 하는 혁신적인 튜닝 방식도 연구하고 있습니다.더 자세히 알아보시려면 아래 링크에서 모델 안전에 대한 IBM 연구소의 다양한 혁신과 왓슨X 제품 포트폴리오에 대해 확인해 보시기 바랍니다. 감사합니다.
품질과 전문화 정도에 대해 살펴보겠습니다. 양적인 측면에서 보면, 이러한 모델은 라벨이 지정되지 않은 방대한 양의 데이터를 비지도 학습 방식으로 학습합니다. 이러한 방대한 양의 데이터에 대한 학습을 통해 엄청난 수의 다양한 다운스트림 작업을 쉽고 효율적으로 수행할 수 있는 초능력을 갖추게 됩니다. 하지만 모델을 학습시키는 데이터가 많을수록 학습과 추론에 필요한 컴퓨팅 비용이 증가하게 됩니다. 실제로 기초 모델을 최대한 효율적으로 학습시키기 위해 얼마나 많은 데이터가 필요한지에 대한 많은 연구가 진행되어 왔습니다. 효율적인 학습을 위해 모델에서 매개변수당 필요한 데이터의 최소량은 얼마일까요? 모델 크기를 측정하는 한 가지 방법은 모델에 포함된 매개변수의 수입니다.
매개변수의 수입니다. 즉, 어느 정도의 정확도를 얻기 위해 모델 매개변수당 필요한 최소한의 데이터 양입니다. 학습 비용에만 초점을 맞춘다면, 학습 데이터 세트의 매개변수당 약 10단어만 있으면 모델을 효율적으로 만들 수 있습니다.추론 비용에 대해 이야기할 때, 모델을 한 번 훈련하는 고정 비용과 모델을 반복해서 사용하는 한계 비용으로 생각하면 모델을 훨씬 더 데이터 밀도로 만들어 모델의 효율성을 향상시킬 수 있습니다. 모델의 매개변수당 100단어 이상의 데이터를 학습 데이터 세트에 사용할 수 있습니다. 데이터의 품질 또한 모델의 신뢰성에 대해 이야기할 때 매우 중요합니다. 머신 러닝과 마찬가지입니다. 데이터의 입력 품질이 좋지 않으면 모델 출력 품질도 좋지 않을 것입니다. 편향된 학습 데이터가 있으면 편향된 모델도 나오게 됩니다. 하지만 기존 머신 러닝과 달리 분류해야 할 데이터가 너무 많습니다. 품질을 검증하기가 정말 어렵습니다.
데이터의 품질을 검증하기가 정말 어렵습니다. 그렇기 때문에 데이터의 출처에 매우 주의를 기울이는 것이 중요합니다. 대부분의 데이터는 인터넷에서 스크랩한 것이며, 이러한 기초 모델을 위한 학습 데이터를 만들 때 사용해서는 안 되는 인터넷의 어두운 구석도 있습니다. 또한 이 학습 데이터 세트에 혐오 및 욕설 필터링인 HAP 필터링을 적용하여 혐오스럽거나 유해한 자료를 추출하고 제거합니다.마지막으로, 모델의 효율성을 개선하기 위해 데이터 측면에서 취할 수 있는 또 다른 전략은 전문화 정도입니다. 여기서 인사이트는 의학적 문제에 대해 궁금한 점이 있을 때, 가장 똑똑한 사람에게 물어볼까요, 아니면 의사에게 물어볼까요? 아마 의사에게 여쭤보겠죠. 전문가의 의견을 원하기 때문입니다. 파운데이션 모델도 마찬가지입니다. 우리는 전문 의료 분야와 데이터 또는 재무 분야가 50대 50으로 혼합되어 훈련된 전문가인 도메인에 특화된 소규모 모델을 보고 있습니다.
데이터 또는 재무 데이터와 일반 데이터를 50대 50으로 혼합하면 전문성이 전혀 없는 훨씬 더 큰 범용 파운데이션 모델보다 좀더 나은 성능을 낼 수 있으므로, 한 도메인에 특화된 작업이 있는 경우 훨씬 더 가볍고 작고 효율적인 전문가 모델을 사용할 수 있습니다. 데이터 측면에 대해 설명한 것입니다. 이제 아키텍처에 대해 이야기해 보겠습니다. 아키텍처 측면에서는 데이터가 모델에 인코딩되는 방식에 대한 청사진을 갖는 방법이라고 생각합니다. 그리고 각기 다른 장점을 가진 다양한 스타일이 등장했습니다. 최근 나온 스타일 중 하나는 디코더 전용 모델입니다. 예를 들어 GPT-3이 이에 해당합니다. 이 모델은 성능이 매우 뛰어납니다.정말 강력하지만 밀도가 매우 높습니다. 반면 인코더-디코더 모델 등과 같은 훨씬 더 가볍고 효율적인 다른 모델들도 등장하고 있습니다. 스타일과 아키텍처 외에도 크기도 중요합니다. 그리고 여기서 다시 매개변수에 대해 이야기합니다. 모델의 크기와 학습 데이터의 크기를 적절하게 맞추는 것이 중요합니다. 모델이 너무 크거나 학습 데이터에 비해 매개변수가 너무 많으면 과적합이 발생하여 신뢰성에 문제가 있고, 효율성 문제도 있을 수 있습니다. 모델이 클수록 훈련과 추론 실행에 더 많은 컴퓨팅 비용이 필요하기 때문입니다.
마지막으로, 트레이닝은 데이터와 아키텍처를 컴퓨팅으로 연결하는 방법으로 전체 과정을 진행합니다. 트레이닝은 사전 학습, 튜닝 등 여러 단계로 나눌 수 있습니다. 사전 학습은 매우 구체적으로 말해서, 모델이 시작점으로 사용되도록 만드는 과정입니다. 이러한 모델은 다양한 후속 작업으로 가져가 다시 훈련된 뒤, 튜닝 과정을 거쳐 최종적으로 사용됩니다. 사전 트레이닝은 첫 번째 기초 모델을 만드는 것으로 파악할 수 있고, 이 작업이 첫 출발점이 됩니다.사전 학습은 기초 모델의 컴퓨팅 비용과 탄소 발자국의 상당 부분을 차지할 것입니다. 이러한 비용은 아키텍처 선택, 하드웨어 선택, 추론 스택 선택 등에 따라 결정되며 이 모든 것이 서로 다른 탄소 비용과 컴퓨팅 비용을 초래할 수 있습니다. 초기 사전 학습이 끝나면 정렬 단계라는 흥미로운 단계가 있는데, 이 단계에서는 사전 학습된 모델을 사용하지만 아직 프라임 타임에 사용할 준비가 되지 않은 상태입니다. 다듬어야하고, 모델이 어떻게 행동하기를 원하는지, 안전과 신뢰성 같은 가치에 더 가깝게 맞춰야 합니다. 정렬과 이를 최대한 효과적이고 효율적으로 수행하는 방법에 대한 연구가 활발히 이루어지고 있습니다.
정렬과 관련된 몇 가지 기법에는 사람의 피드백을 통한 강화 학습(RLHF)가 있습니다. 이 경우, 사람이 실제로 루프에 앉아 모델 성능을 평가하고 점수를 매기며, 보상 함수를 만드는 것입니다. 기본적으로 게임이며, 모델이 인간 주석가로부터 가장 높은 점수를 받을 수 있는 답변을 제공하도록 유도합니다. 좀 더 데이터에 기반한 다른 방법도 있습니다. 따라서 지금까지 이 과정에서의 모든 것은 비지도 학습을 통해 이루어졌습니다. 레이블이 지정된 데이터가 없었습니다.인터넷에서 수많은 데이터를 스크랩했습니다. 학습을 완료했습니다. 하지만 이제 지도 학습을 다시 시작하려면 작업에 맞는 레이블이 지정된 데이터 또는 공정한 도메인을 보여주는 레이블이 지정된 데이터를 가져와야 합니다. 튜닝이라는 프로세스를 통해 사전 학습된 모델의 일부 매개변수를 업데이트하고 레이블이 지정된 데이터에 기반하여 더 효과적으로 학습할 수 있습니다. 이 외에도 여러 가지 기법이 있으며, 정렬 단계에서는 여러 가지 일이 일어납니다. 이는 현재 활발히 연구되고 있는 분야로, 학습이 완료된 모델의 공정성을 개선하기 위해 편집, 후처리와 같은 작업을 수행할 수도 있습니다. 다양한 구성 요소와 전략에 대해 이야기했으니, 이제 효율적이고 신뢰할 수 있는 기반을 구축하기 위해
효율적이고 신뢰할 수 있는 기초 모델을 구축하기 위해 현재 왓슨 X를 통해 제공되고 제품 파이프라인에 주입되고 있습니다. 데이터 측면에서 IBM은 기초 모델 학습을 위한 가장 큰 엔터프라이즈 데이터 세트 중 하나로 여겨지는 것을 구축하고 있습니다.학습을 위해 방대한 양의 데이터를 구축하는 것 외에도 데이터의 품질에 중점을 두어 신뢰할 수 있는 출처에서 데이터를 가져오고, 모든 데이터 요소가 법적 확인을 거쳐 소유권 문제와 저작권 문제가 없는지 확인하고, 데이터의 품질을 최대한 안전하게 만들기 위해 잠재적으로 유해한 정보를 제거해야 하는지를 파악하기 위해 레드팀으로 구성하여 작업하고 있습니다. 또한 재무 및 사이버 보안과 같은 다양한 전문 분야를 적극적으로 공략하여 기업의 요구에 더 효율적으로 대응할 수 있는 전문가 모델을 개발하고 있습니다.
다양한 스타일의 모델을 구축하는 것도 중요한 작업 중 하나로, 인코더-디코더 모델, 디코더 전용 모델 등이 포함됩니다. 또한 전례 없는 새로운 아키텍처 개발과 매우 효율적인 운영을 약속하는 모델, 전문 지식을 주입할 수 있는 모듈식 구성 요소를 갖춘 모델도 진행 중이며, 이를 통해 산업에서 큰 가치를 창출할 수 있을 것으로 예상하고 있습니다. 모델의 크기 역시 다양하게 구축되며, 작은 3조 개 규모의 모델부터 20조 개 이상의 큰 모델까지 개발되고 있습니다.마지막으로 훈련 측면에서 정말 흥미로운 점은 IBM 연구에서 나온 발전된 기술 중 하나인 모델을 재활용하고 재사용하여 훈련 시 상당한 탄소 및 컴퓨팅 비용을 절감할 수 있는 모듈식 훈련 접근 방식인 LIGO(학습을 통한 성장)입니다. 이 기술 덕분에 일부 모델은 가장 지속가능한 방식으로 훈련됩니다.