오전에 vits 음성합성 문제로 질문올렸고 구체적인 상황을 이야기해달라는 답변을 받았고 그에 대한 답변을 써 봅니다.
config.json의 내용입니다.
{
"train": {
"log_interval": 200,
"eval_interval": 1000,
"seed": 1234,
"epochs": 50000,
"learning_rate": 12e-4,
"betas": [0.8, 0.99],
"eps": 1e-9,
"batch_size": 12,
"fp16_run": true,
"lr_decay": 0.999875,
"segment_size": 8192,
"init_lr_ratio": 1,
"warmup_epochs": 0,
"c_mel": 45,
"c_kl": 1.0
},
"data": {
"training_files":"filelists/ko_train_cleaned.txt",
"validation_files":"filelists/ko_train.txt",
"text_cleaners":["korean_cleaners"],
"max_wav_value": 32768.0,
"sampling_rate": 22050,
"filter_length": 1024,
"hop_length": 256,
"win_length": 1024,
"n_mel_channels": 80,
"mel_fmin": 0.0,
"mel_fmax": null,
"add_blank": true,
"n_speakers": 0,
"cleaned_text": true
},
"model": {
"inter_channels": 192,
"hidden_channels": 192,
"filter_channels": 768,
"n_heads": 2,
"n_layers": 6,
"kernel_size": 3,
"p_dropout": 0.1,
"resblock": "1",
"resblock_kernel_sizes": [3,7,11],
"resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
"upsample_rates": [8,8,2,2],
"upsample_initial_channel": 512,
"upsample_kernel_sizes": [16,16,4,4],
"n_layers_q": 3,
"use_spectral_norm": false,
"gin_channels": 256
},
"speakers": ["kss"],
"symbols": ["_", ",", ".", "!", "?", "\u2026", "~", "\u3131", "\u3134", "\u3137", "\u3139", "\u3141", "\u3142", "\u3145", "\u3147", "\u3148", "\u314a", "\u314b", "\u314c", "\u314d", "\u314e", "\u3132", "\u3138", "\u3143", "\u3146", "\u3149", "\u314f", "\u3153", "\u3157", "\u315c", "\u3161", "\u3163", "\u3150", "\u3154", " "]
}
위 내용이 파라미터인지 잘 모릅니다.
전 초보자니까요.
이제 오전의 질문을 이어서 이야기해 봅시다.
위 링크를 타고들어가면 모델들이 쭉 나열되어있습니다.
모델 6번을 참고해주세요.
1164_epochs.pth
MoeGoe github에서 가져온 모델입니다.
huggingface와 같은 모델입니다.
전 이 모델로 전의학습을했습니다.
몇가지 음성을 학습했었습니다.
애니메이션과 aihub에서 제공해주는 음성으로 학습했습니다.
그리고 지금은 kss를 전의학습중이죠.
문제는 kss 음성 문제입니다.
다른 음성들은 사 발음과 륙 발음에는 문제가 없었습니다.
이건 장담합니다.
kss 음성이 문제입니다.
처음 만들어진 음성을 들어봤습니다.
외국인 스러운 발음이지만 부명 사는 사로 발음했었습니다.
학습하면 학습할 수록 사 발음은 다가 되고 댜가 되고 쟈가 됩니다.
이륙과 착륙 발음중 착륙 발음이 이상합니다.
이륙의 발음에는 문제가 없습니다.
데이터셋 대본을 가져왔습니다.
dataset/KO/3_3798.wav|비행기는 5분 후에 이륙할 예정입니다.
dataset/KO/3_3805.wav|우리 비행기는 10분 후에 이륙합니다.
dataset/KO/3_3806.wav|저희 비행기가 정시에 착륙하고 있습니다.
dataset/KO/3_3895.wav|호주의 내륙은 하나의 거대한 사막 지역이다.
dataset/KO/1_0001.wav|그녀의 사랑을 얻기 위해 애썼지만 헛수고였다.
dataset/KO/1_0009.wav|사흘 동안 심하게 몸살을 앓았어요.
dataset/KO/1_0011.wav|장사가 잘 안돼서 우울해.
dataset/KO/1_0020.wav|그는 절대 다른 사람의 의견을 받아들이지 않는다.
dataset/KO/1_0031.wav|오타를 발견하시는 분께 사례하겠습니다.
dataset/KO/1_0044.wav|저는 무력 사용을 반대합니다.
dataset/KO/1_0046.wav|저희 회사에 방문해 주셔서 감사드립니다.
dataset/KO/1_0062.wav|벽 사이에 벌어진 틈이 있어.
dataset/KO/1_0091.wav|그녀가 나에게 사진 몇 장을 보여 주었다.
dataset/KO/1_0103.wav|사람들은 그를 게으른 천재라고 부른다.
dataset/KO/1_0018.wav|114에 전화를 해서 번호를 알아보시지 그러세요?
너무 많아서 대충 가져왔습니다.
뭐가 문제일까요?
vits는 GitHub - ouor/vits: VITS implementation of Japanese, Chinese, Korean, Sanskrit and Thai 에서 가져왔고 아나콘다를 사용하며 python은 원래 3.7를 사용했지만 자꾸 업데이트하라는 메세지가 나와 3.8로 업데이트했고 파이토치는 1.3을 사용하며 rtx 3060 12gb를 사용하고있고 배치사이즈는 36을 사용하다 발음 문제가 개선되지 않아 12로 나춰봣고 학습속도는 13을 넘어가면 자꾸 nan이 나와 저 정도로 나추었는데 몇달이 걸릴지 몇년이 걸릴지 알 수가 없는 상황입니다.