수정하면 수정할 수록 돌이킬 수 없게 되었습니다.
아래는 돌이킬 수 없게된 ui 화면을 복사했습니다.
Gradio
Gradio VITS-TTS Inference demo v1.01
Enter the text, select the speaker, adjust the speed, noise scale, and noise scale width.
Text
Speaker
Speaker: 스피커id
Noise Scale
0
Noise Scale: 0
Noise Scale Width
0
Noise Scale Width: 0
Speed
0
Speed: 0
클리어
제출하기
31.1
Audio
플래그
Examples
Text
Speaker
Noise Scale
Noise Scale Width
Speed
학습은 잘 마치셨나요? 좋은 결과가 있길 바래요.
스피커id
1
0.667
0.8
gradio로 제작되었습니다 logo
Text이 부분에 학습은 잘 마치셨나요? 좋은 결과가 있길 바래요.
이렇게 되어 있어야하지만ui가 깨져서 빈 공간이 되었고 학습은 잘 마치셨나요? 좋은 결과가 있길 바래요. 이부분이 본문이 되었습니다.
돌이킬 수 없게 된 코드입니다.
import argparse
import torch
from torch import no_grad, LongTensor
import commons
import utils
import gradio as gr
from models import SynthesizerTrn
from text import text_to_sequence, _clean_text
def get_text(text, hps):
text_norm = text_to_sequence(text, hps.data.text_cleaners)
if hps.data.add_blank:
text_norm = commons.intersperse(text_norm, 0)
text_norm = torch.LongTensor(text_norm)
return text_norm
def create_tts_fn(model, hps, speaker_ids):
def tts_fn(text, speaker, noise_scale, noise_scale_w, speed):
speaker_id = speaker_ids[speaker]
stn_tst = get_text(text, hps)
with no_grad():
x_tst = stn_tst.cuda().unsqueeze(0)
x_tst_lengths = LongTensor([stn_tst.size(0)]).cuda()
sid = LongTensor([speaker_id]).cuda()
audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=noise_scale,
noise_scale_w=noise_scale_w, length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
del stn_tst, x_tst, x_tst_lengths, sid
return audio
return tts_fn
def create_to_phoneme_fn(hps):
def to_phoneme_fn(text):
return _clean_text(text, hps.data.text_cleaners) if text != "" else ""
return to_phoneme_fn
def main():
parser = argparse.ArgumentParser()
parser.add_argument("--config_path", required=True,
help="path to config file")
parser.add_argument("--model_path", required=True,
help="path to model file")
args = parser.parse_args()
models_tts = []
name = 'VITS-TTS demo v1.01'
example = '학습은 잘 마치셨나요? 좋은 결과가 있길 바래요.'
config_path = args.config_path
model_path = args.model_path
hps = utils.get_hparams_from_file(config_path)
model = SynthesizerTrn(
len(hps.symbols),
hps.data.filter_length // 2 + 1,
hps.train.segment_size // hps.data.hop_length,
n_speakers=hps.data.n_speakers,
**hps.model).cuda()
utils.load_checkpoint(model_path, model, None)
model.eval()
speaker_ids = [sid for sid, name in enumerate(
hps.speakers) if name != "None"]
speakers = [name for sid, name in enumerate(
hps.speakers) if name != "None"]
models_tts.append((name, speakers, example,
hps.symbols, create_tts_fn(model, hps, speaker_ids),
create_to_phoneme_fn(hps)))
def tts_interface(text, speaker, noise_scale, noise_scale_w, speed):
audio = models_tts[0][4](
text, speaker, noise_scale, noise_scale_w, speed)
return audio
inputs = [
gr.inputs.Textbox(label="Text"),
gr.inputs.Dropdown(choices=speakers, label="Speaker"),
gr.inputs.Slider(0.0, 1.0, label="Noise Scale"),
gr.inputs.Slider(0.0, 1.0, label="Noise Scale Width"),
gr.inputs.Slider(0.0, 1.0, label="Speed")
]
outputs = gr.outputs.Audio(type="numpy", label="Audio")
app = gr.Interface(fn=tts_interface, inputs=inputs, outputs=outputs,
title="Gradio VITS-TTS Inference demo v1.01",
description="Enter the text, select the speaker, adjust the speed, noise scale, and noise scale width.",
examples=[[example, speakers[0], 1.0, 0.667, 0.8]])
app.launch()
if name == "main":
main()
원래 목적은 이러했습니다.
기존 게시물에 음성합성 속도조절이 안 된다고 도움 요청 했죠?
그래서 기존 게시물 답변을 인공지능에게 참고해서 수정해달라고 요청 했습니다.
그래서 수정이 되었죠.
19번째 줄과 41번째 줄이 자꾸 문제를 이르켜서 또 수정했죠.
그리고 이 꼴이 났습니다.
ui가 깨지다 못해 이제는 음성합성까지 되지 않고 있습니다.
혹시 괜찮으시면 수정 된 코드를 전체를 올려 주실 수는 없을까요?
더 건들다간 더 망가질거 같아서 그렇습니다.