SkyScript-100M 데이터셋 소개
SkyScript-100M은 100억 쌍의 대본과 촬영 스크립트를 포함한 방대한 데이터셋입니다. 이 데이터셋은 인기 있는 6,660개의 숏드라마 에피소드에서 추출된 10억 개의 촬영 스크립트를 포함하고 있으며, 각 에피소드는 약 100개의 숏 에피소드로 구성되어 총 8만 개 이상의 숏 에피소드가 수집되었습니다. 짧은 드라마 영상 제작에 관심이 있거나, 텍스트에서 비디오로의 변환 기술에 대해 관심이 있다면, SkyScript-100M 데이터셋을 살펴보셔도 좋을 것 같습니다.
기존의 텍스트-투-비디오 데이터셋과 비교했을 때, SkyScript-100M은 매우 상세한 촬영 스크립트를 포함하고 있으며, 더 깊이 있는 스크립트 최적화를 가능하게 합니다. 이는 다른 데이터셋이 제공하지 못하는 강력한 점입니다.
SkyScript-100M 데이터셋의 주요 특징
- 대규모 데이터셋: 약 10TB에 달하는 방대한 데이터로 구성되어 있어, 깊이 있는 연구가 가능합니다.
- 다양한 응용: 이 데이터셋을 통해 짧은 드라마 영상 생성, 스크립트 최적화, 그리고 새로운 텍스트-투-비디오 기법을 개발할 수 있습니다.
- SkyReels 연동: SkyScript-100M을 기반으로 개발된 SkyReels 모델은 숏드라마 생성의 새로운 기준을 제시합니다.
라이선스
SkyScript-100M은 MIT License로 공개되어 있습니다. GitHub 저장소는 존재하지만, 2024/08/22 현재 아직 데이터와 코드가 공개되지 않았습니다
SkyScript-100M 기술 문서
SkyScript-100M GitHub 저장소
(2024/08/22 현재 아직 데이터와 코드가 공개되지 않았습니다)
SkyReels Model 홈페이지
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~