소개
Andrew Ng이 만든 DeepLearning.AI에서 이번에 HuggingFace와 함께 협업을 통해 새로운 강좌를 개설했습니다.
이 강좌에서는 텍스트, 오디오, 이미지 및 멀티모달 태스크를 수행하기 위해 Hugging Face Hub에 올라온 오픈소스 모델들을 찾고, Hugging Face의 transformer 라이브러리를 사용하는 방법 등을 배우게 된다고 합니다. 또한, 사용자 친화적인 인터페이스나 API를 사용하여 AI 애플리케이션을 쉽게 공유하고, 로컬 또는 클라우드에서 Gradio와 Hugging Face Spaces을 사용하여 실행하는 방법을 배울 수 있다고 합니다.
이 과정에 포함된 주요 내용들은 다음과 같다고 합니다:
- 트랜스포머 라이브러리를 사용하여 작은 언어 모델을 멀티턴 대화가 가능한 챗봇으로 전환하여 후속 질문에 답변할 수 있습니다.
- 언어 간 번역, 문서 요약, 두 텍스트 간의 유사성을 측정하여 검색 및 검색에 사용할 수 있습니다.
- 자동 음성 인식(ASR)으로 오디오를 텍스트로 변환하고, 텍스트 음성 변환(TTS)을 사용하여 텍스트를 오디오로 변환하세요.
- 제로 샷 오디오 분류를 수행하여 모델을 미세 조정하지 않고도 오디오를 분류할 수 있습니다.
- 객체 감지와 텍스트 음성 변환 모델을 결합하여 이미지를 설명하는 오디오 내레이션을 생성합니다.
- 제로 샷 이미지 분할 모델에 선택하려는 객체를 식별하는 포인트를 표시하여 이미지에서 객체 또는 영역을 식별합니다.
전체 강좌는 약 5~10분 가량의 짧은 영상 16개로 구성되어 있으며, 전체 시간은 대략 115분 가량되는 것 같습니다. DeepLearning.AI 계정만 있다면 누구나 무료로 수강할 수 있으며, 강의 주제들은 다음과 같습니다.
Open Source Models with Hugging Face 강좌 구성
- Introduction
- Selecting models
- Natural Language
- Processing (NLP)
- Translation and Summarization
- Sentence Embeddings
- Zero-Shot Audio Classification
- Automatic Speech Recognition
- Text to Speech
- Object Detection
- Image Segmentation
- Image Retrieval
- Image Captioning
- Multimodal Visual Question Answering
- Zero-Shot Image Classification
- Deployment
- Conclusion