Wav2vec Pipeline 한국어 fine-tuning이 가능할까요?

혹시 wav2vec2 토치 공식 pipeline을 이용해서 한국어 fine-tuning을 해보신분 있으신가요?
이게 가능할까요?

해당 링크는 fine-tuning도 완료된 파이프라인을 이용해서, inference 하는 예제입니다.

docs를 찾아보니, pretrain만된 파이프라인도 제공을 해주더라구요, 혹시 한국어 학습도 가능할까요?

1개의 좋아요

espnet librispeech 예제에 self learning된 모델을 가져다가 다시 학습하는 예제가 있습니다.
이 부분을 수정하셔서 한글 데이터로 수정해서 시도해보시면 좋을 것 같습니다.
저도 해보기는 했는데 크게 소득은 없었습니다.

제 생각으로는 보유하신 한국어 데이터가 많으면 불필요할 것 같고요
한국어 데이터가 적으시면 한번 시도해 볼 필요가 있다고 생각합니다.

3개의 좋아요

답변 감사합니다.
그럼, 한국어 데이터 수가 많다면
차라리 supervised learning 모델을 추천하시는 건가요?

네 그것으로 충분할 것 같습니다.
librispeech 의 경우 labled 가 960시간 정도뿐이고 같은 언어이니 self-learning에서 가져온 모델이 이득을 주는 것으로 보이고요
학습 데이터가 수천 시간 이상이라면 다른 언어로 학습된 wav2vec2나 hubert를 써서 이득을 보기는 어려울 것 같습니다.

2개의 좋아요

이 글은 마지막 댓글이 달리고 2일 뒤 자동적으로 닫혔습니다. 새 댓글을 다실 수 없습니다.