GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.
Jeff Dean(Google): 머신 러닝의 흥미로운 트렌드
소개
1. 기계 학습의 흥미로운 추세와 기대
- 기계 학습은 최근 몇 년 동안 우리가 컴퓨터가 할 수 있는 것에 대한 기대를 크게 바꾸어 놨다.
- 언어, 이미지, 자연어 처리 등 모든 분야에서 컴퓨터가 세상을 더 잘 인식하고 이해할 수 있는 능력을 가지게 되었다.
- *컴퓨터가 *볼 수 있고 *감지할 수 있는 기술의 발전은 인간 활동의 거의 모든 분야에서 많은 기회를 열어놓았다.
- 더 큰 규모의 컴퓨팅 자원, 특수화된 컴퓨터 등의 발전은 더 나은 결과를 제공하며, *새로운 가능성을 열어놓았다.
- 우리는 더 효율적으로 *컴퓨터가 할 수 있는 일의 범위를 좁히면서 고효율로 구동할 수 있는 더 다양한 형태의 하드웨어가 필요하다.
2. ️음성인식, 번역, 이미지 분석 기술 발전 및 예측 정확도 향상
- 음성인식 기술은 오디오 파형을 5초 동안의 의미있는 말로 변환해주는 것이며 이에 대한 발전이 크다.
- 번역 기술은 한 언어에서 다른 언어로의 번역이 컴퓨터에게 큰 도움이 되는 기능으로 발전하고 있다.
- 이미지 분석 기술은 레이블 명칭뿐 아니라 장면을 설명하는 짧은 문장으로 변환되는 등 컴퓨터 비전 분야에서 큰 발전을 이루었다.
- 또한, 이전 몇 년 동안 이러한 기술들을 반대로 활용하는 것도 가능해졌다.
- 10년 동안 사람의 정확도보다도 뛰어난 성능 향상이 이루어진 것이 신기하다.
3. AI 모델의 품질을 향상시키기 위해 하드웨어 스케일링의 중요성
- 음성 인식의 정확도를 측정하는 대표적인 벤치마크인 'Word Error Rate'는 기존의 13.25%에서 2.5%까지 크게 개선되었다.
- 이로 인해 사용성이 크게 향상되어 이제는 이메일을 따라쓰거나 딕테이션을 할 수 있을 정도로 신뢰할 수 있게 되었다.
- 특히 하드웨어의 스케일업은 모델 품질을 향상시키는데 도움이 되며, 이를 위해 머신 러닝에 최적화된 하드웨어를 필요로 한다.
- 신경망(neural network) 모델에는 감소된 정밀도가 사용되어도 문제가 없다는 특징이 있고, 이를 통해 더 효율적인 모델 학습이 가능하다.
- 또한, 모델 학습에 사용되는 알고리즘들은 선형 대수 연산의 다양한 조합으로 이루어져 있어, 감소된 정밀도의 선형 대수 연산을 효율적으로 처리할 수 있는 컴퓨터가 필요하다.
4. 컴퓨터 네트워크 발전과 언어 모델에 대한 열정
- 첫 번째 세대에는 간단하지만 고대역폭 네트워크였다. 각 칩은 2D 그리드로 연결되어 있었고, 16x6 그리드에 4개의 이웃 칩과 전선으로 연결되었다.
- 이는 네트워크에서 라우팅을 하지 않아도 되고, 칩 사이를 짧은 거리로 연결하므로 고속 대역폭, 저렴한 연결이 가능했다.
- 다음 세대에서는 8개 랙에 1024개 칩으로 확장되었고, 다음 세대에서는 64개의 랙에 각각 64개 칩을 사용했다.
- 특히 최근에는 V5 시리즈로 나온데, 나눔 인퍼런스용 256개 칩을 사용하는 V5P 모델은 각 칩당 더 많은 메모리, 높은 대역폭, 그리고 메모리 대역폭을 제공한다.
- 이 모델은 16비트 부동소수점 성능으로 칩 당 거의 반 페타플롭스의 성능을 제공하며, XOR 플롭스로는 칩 당 약 9,000개의 칩으로 계산할 수 있다.
- 컴퓨터가 할 수 있는 일 중에서 가장 변화가 크게 일어나고 있는 분야 중 하나는 언어다. 이미지와 음성 인식에 대한 발전 이야기를 나눴는데, 사실 언어 모델에 대한 흥미는 NN 네트워크 이전부터 있었다. 그래서 우리는 Google 번역팀과 협력하여 언어 모델에 대한 연구를 진행하였다.
5. ️ 대량의 데이터와 간단한 기술로 고품질 번역 시스템을 구축
- 과학 대회를 위해 개발된 고품질 번역 시스템을 진짜 실무에 사용하기 위해 노력함
- 2조 토큰에서 5단어 시퀀스가 얼마나 자주 나오는지 통계를 내어 3000억 개의 고유한 5-gram을 메모리에 저장하는 시스템 구축
- 없는 데이터를 찾을 때는 그 이전의 4-gram, 3-gram 등을 참고하는 새로운 알고리즘 'stupid backoff' 개발
- 단순한 기법이 대량의 데이터와 결합되면 효과적인 결과를 얻을 수 있다는 교훈을 얻음
6. ️단어를 고차원 벡터로 표현하여 유사한 맥락에 있는 단어들을 가깝게, 다른 맥락에 있는 단어들을 멀게 함
- 단어를 이산적으로 표현하는 대신, 고차원 벡터로 표현하여 유사한 맥락에 있는 단어들을 가깝게 하고 다른 맥락에 있는 단어들을 멀게 함.
- 수많은 데이터를 사용하여 트레이닝 프로세스를 거쳐 유사한 맥락에서 출현하는 단어들을 가깝게 하고 다른 맥락에서 출현하는 단어들을 멀게 하여 공간에서 유사한 단어들을 같이 묶어냄.
- 분산 표현은 단어를 대표하는 100차원 벡터 안에 많은 정보를 인코딩하고, 이러한 방법으로 언어 번역 모델인 '시퀀스 투 시퀀스 러닝'이 개발되었음.
- '시퀀스 투 시퀀스 러닝'은 신경망을 사용하여 문장을 하나씩 입력하면서 문장을 구성하고, 각 단어의 분산 표현을 업데이트하여 번역 결과를 출력함.
7. 모델을 사용하여 자연어 번역 및 다중 대화를 수행
- 훈련 데이터에는 영어 문장과 그에 해당하는 뜻의 프랑스어 문장이 함께 있는데, 이 데이터로 모델을 훈련시킨다.
- 입력된 영어 문장으로부터 시작하여 프랑스어 문장을 번역하는 모델을 구축한다.
- 다중 대화를 위해 이전 상호작용들로 구성된 컨텍스트를 사용하여 적절한 응답을 생성하도록 모델을 훈련시킨다.
- Transformer 모델을 사용하여 입력을 병렬로 처리하고, 각 부분에 집중하여 번역 정확도를 개선한다.
- 현재는 알고리즘과 머신러닝 하드웨어의 발전으로 인해 더 큰 규모의 모델을 훈련하고 더 효율적인 응답을 생성할 수 있다.
8. 다양한 모달리티에 대해 구분없이 처리할 수 있는 대화형 다중 모달 모델 개발
- OpenAI의 Mina, ChatGPT, Google의 Bard와 같은 신경망 대화형 모델의 진보에 대해 이야기했다.
- 언어 모델의 변화에 대해서도 언급하고, OpenAI의 GPT2와 Google의 T5 작업을 언급했다. 이 모델들은 매개변수 수가 크게 증가하고 있음.
- 이러한 작업의 기초로 사용되는 Transformer의 발전에 대해 언급하였다.
- OpenAI의 GPT3, GPT-4 및 Google의 Gemini 프로젝트 등에 대해 이야기했다. Gemini 프로젝트는 텍스트뿐만 아니라 이미지, 오디오 등 다양한 모달리티를 동시에 처리할 수 있는 모델을 개발하는 것을 목표로 한다.
- Gemini 프로젝트는 텍스트와 이미지, 비디오, 오디오 등을 하나의 시퀀스로 처리하고, Transformer를 기반으로 모델을 훈련시킨다. 이를 통해 다양한 모달리티에 대해 일관된 표현을 구축할 수 있다.
9. ️텐서플로 훈련 인프라, 다양한 크기의 Gemini 제품과 자동 복구 시스템
- 텐서플로의 Gemini은 Ultra, Pro, Nano 3가지 크기로 제공되며, 각 모델은 다른 용도나 장소에 적합하다.
- Gemini은 모델 훈련에 대한 매우 확장 가능한 패브릭을 제공하며, 고성능 네트워크와 자동 복구 시스템을 갖추고 있다.
- 탐지된 failures를 최소화하기 위해 멀티노드 환경에서 동시에 업그레이드를 실행하고, 고속 네트워크로 다른 복사본의 상태를 복원하며, 복구 시간을 몇 초로 줄일 수 있다.
- 다양한 데이터를 사용하여 모델을 훈련하며, 웹 문서, 책, 코드, 이미지, 오디오, 비디오 등의 다양한 형식을 훈련 데이터로 사용한다.
- 모델 훈련 데이터의 최종 구성은 작은 모델로 실험하고 성능을 평가하여 결정되며, 다양한 평가 지표를 활용하여 최적의 데이터 혼합을 찾는다.
10. 데이터 품질은 중요하고 고려되어야 함. 모델 아키텍처보다 데이터 품질이 더 중요함.
- 학습 마지막에는 도메인 관련 데이터를 활용하여 다국어 데이터를 추가한다.
- 높은 품질의 데이터는 모델 성능에 큰 차이를 만든다.
- 자동으로 커리큘럼을 학습할 수 있는 능력은 미래 연구 분야 중 하나이다.
- 질문을 할 때 모델이 더 효과적으로 대답할 수 있도록 하는 방법과 모델의 장점을 최대한 끌어내는 방법에 대한 연구도 진행 중이다.
- 체인 오브 쑤트 프롬프팅 기법을 사용하면 모델이 더 다양한 단계를 고려해 정확한 답변을 제공할 수 있다.
11. 모델 평가 및 성능 분석 결과 알아보기
- 해당 모델은 학생이 잘못된 답을 도출한 사례를 예시로 소개하고, 수정되어야 할 부분을 지적한다.
- 모델은 32개 학문 벤치마크를 평가하였고, Gemini Ultra 모델은 30개 벤치마크에서 기존 예상 성능을 초월하는 결과를 보였다.
- 이 모델은 다중언어 성능도 고려하고, 복잡한 트레이드오프를 고민한다.
- 이 모델은 영상 이해와 다중모달 능력이 뛰어나며, 다양한 벤치마크에서 우수한 성과를 달성한 것으로 나타났다.
12. ️️ Gemini 모델은 훌륭한 음성 인식 성능과 다국어 능력을 가지고 있으며, 챗봇으로도 프로그래밍까지 가능.
- Gemini 모델은 다양한 음성 인식 기준에서 최고 수준의 오류율을 보여줬고, 다국어 능력도 우수한 편이다.
- 기존에 팀이 많은 노력을 기울여 모델을 평가하고 그 능력을 상세히 이해하기 위한 작업을 수행했다.
- Gemini 모델은 유익한 정보와 프로그래밍 코드도 제공할 수 있어서 굉장히 놀라웠다.
- 또한, TPUs에 대한 지식도 갖추었으며, 훌륭한 효율성과 성능 향상을 제공한다고 설명한다.
- Gemini 모델은 다양한 챗봇의 개성을 가질 수 있는데, 이 중 Bard는 도움이 되는 친구로서 질문에 도움을 주며, 이 모델은 LMY 사이트에서 높은 ELO 점수를 달성한것으로 알려져 있다.
13. 인공지능 모델 활용과 도메인별 훈련
- 다양한 모델이 있고, 이 중 순위권을 보여주는 무료 서비스와 그렇지 않은 유료 서비스가 있다.
- Gemini는 엔글랜드, 미국, 대한민국, 대만, 싱가포르의 '백만 명당 기업 수'를 계산해 테이블 형태로 제공한다.
- 엔글랜드의 수가 가장 높고, 이를 해석해주며, 미국, 대한민국, 대만, 싱가포르 순으로 나열된다.
- 각 정보는 다양한 소스로부터 수집되며, 정확한 정의에 따라 실제 숫자가 약간 다를 수 있다.
- 인공지능 모델들을 도메인별로 훈련하면 특정 문제에 대해 전문적인 결과를 얻을 수 있다.
14. 이미지와 비디오를 생성하는 생성 모델에 대한 빠른 설명.
- 이번 영상에서는 이미지와 비디오를 생성하는 생성 모델에 대해 간략히 설명한다.
- 관련 연구 프로젝트로 'Party'와 'Imagine'가 있으며, 시각적 이미지를 생성하는 모델을 만드는데 있어서 텍스트 입력을 활용하여 특정한 이미지를 생성할 수 있다.
- 예를 들어, 새로운 이미지를 만들어보라는 텍스트 입력에 대해 모델이 이를 해석하고 실제 이미지를 생성한다.
- 이러한 생성 모델은 사물 묘사와 함께 픽셀에 대한 텍스트 표현을 기반으로 이미지를 생성한다.
- 이러한 방식을 통해 원하는 텍스트에 기반한 이미지를 생성할 수 있다.
15. ️이미지 기능의 발전은 스마트폰 사용자에게 편리함을 제공한다.
- 이미지 분석 모델을 다른 매개변수로 여러 개 훈련시키면 규모에 따라 결과가 달라진다.
- 스마트폰 카메라 기능은 기술적인 사진학과 기계 학습의 조합으로 더욱 향상되었다.
- 사진 모드, 야간 모드, 색상 강조, 자동 대화 응답 등 다양한 기능으로 실시간 변환과 텍스트 추출이 가능하다.
- 이러한 기능들은 사용자의 문맥을 고려하여 존재하지 않는 것 같은 변환과 응답을 제공한다.
- 선명한 이미지 전송과 다국어 번역 등 제한된 리터러시 환경에서의 혁상적인 이점을 제공한다.
16. ️기계 학습 기술을 활용한 물질 과학과 의료 영역에서의 활용
- 물질 과학 분야에서 기계 학습이 사용되어 빠른 시뮬레이터 생성 등 다양한 측면에 영향을 주고 있다.
- 기계 학습을 통해 가능한 물질들을 조사하고 특성을 가진 재료를 식별하는데 큰 잠재력이 있다.
- 의료 영역에서는 의료 이미지 진단에도 기계 학습이 사용되고 있으며, 당뇨 망막병증 등을 조기에 발견할 수 있다.
- 의료 영상 분석을 통해 의사가 부족한 지역에서도 환자를 선별할 수 있으며, 인공지능 모델이 전문의와 비슷한 효능을 가질 수 있다.
17. 머신러닝과 컴퓨터가 세상을 변화시키는 동안, 머신러닝의 적용과 책임감에 대한 원칙
- GPU를 이용해 빠른 스크리닝, 사진을 통한 피부과 진단을 실시
- 공정하지 않은 편향성 제거, 모델의 해석 가능성, 프라이버시 고려, 사회적 이익 등 기계 학습 적용에 대한 원칙을 발표
- 현재도 편향성, 프라이버시, 안전성 등에 관한 연구를 진행 중
- 머신러닝과 컴퓨팅의 발전으로 사용자와 자연스러운 대화와 상호작용이 가능해지고, 컴퓨터가 다양한 형태의 정보를 이해하고 생성할 수 있다고 기대
- 이러한 기술의 가능성과 동시에 사회에 대한 책임감을 가져야 함
18. 등장하는 질문들을 통해 데이터의 중요성 및 고객 요구에 대해 논의
- Slido를 통해 도착한 질문들 중 몇 가지 경향성을 가진 질문을 선택해 공유한다.
- 데이터 분야에서는 고품질 데이터와 모델 용량이 모델의 성능을 향상시킬 수 있다.
- 하지만 데이터의 품질과 모델의 크기를 고려해야 한다. 낮은 품질의 데이터는 모델의 수학 문제 해결 능력 등에 부정적인 영향을 줄 수 있다.
- 많은 양의 비디오 데이터를 사용한 학습은 아직 충분히 일어나지 않았으며, 언어 데이터 뿐만 아니라 시각 및 음성 데이터를 통해 세계를 이해하는 것이 언어로만 학습하는 것과 다를 것이다.
- 전체적으로 데이터의 소진은 아직 되지 않았으며, 더 많은 발전 가능성이 있다.
19. ️멀티모달 모델은 각각의 도메인을 위한 타겟 모델보다 더 성능이 좋을까요?
- 멀티모달 모델은 일부 경우에서는 성능이 더 좋을 수 있습니다.
- 모달리티를 늘릴수록 다른 모달리티의 성능이 향상되는 경향이 있습니다.
- 좁은 문제에 대해 타겟된 데이터셋을 수집한 경우, 그 문제에 대한 성능이 높아질 수 있습니다.
- 하지만 복잡한 문제이거나 특화된 데이터를 수집하기가 어려운 경우, 다양한 지식을 갖고 있는 모델이 필요합니다.
- 적은 리소스를 가진 개인들은 큰 모델을 훈련하기 어려우므로, machine learning 분야에서 다양한 연구 주제를 탐구할 수 있습니다.
20. GPU를 사용한 모델 연구 및 다양한 데이터 모달리티 중요성 강조
- GPU 하나 또는 소수의 GPU를 사용하여 데이터 품질 평가, 자동 평가, 온라인 커리큘럼 학습 및 최적화 방법과 같은 연구가 가능하다.
- 트랜스포머 연구는 8개의 GPU 위에서 수행되었다. LLM과 시퀀스-투-시퀀스 모델 또한 8개의 GPU로 연구되었다.
- LLM 및 트랜스포머가 모든 것인가에 대한 의문들이 제기되었으며, 기계 학습 분야에서 다른 모델 연구에 대한 역할은 어떤지에 대한 고민이 있다.
- 다른 아이디어를 주목할 만한 발전이 이뤄지지 못하게 하는 것은 우려스러울 정도로 구체화되지 않았거나 덜 탐구된 아이디어를 배제하는 것일 수도 있다.
- 다양한 모달리티를 다루는 것이 중요하다고 판단되며, 비주얼, 오디오, 언어 뿐만 아니라 의료에서의 심장 박동센서 데이터와 같은 다른 모달리티를 고려해야 한다.