gradio ui가 깨졌습니다. 도와주세요.

kbuwel · 1월 30, 2024, 4:31오후

수정하면 수정할 수록 돌이킬 수 없게 되었습니다.
아래는 돌이킬 수 없게된 ui 화면을 복사했습니다.
Gradio
Gradio VITS-TTS Inference demo v1.01
Enter the text, select the speaker, adjust the speed, noise scale, and noise scale width.
Text

Speaker
Speaker: 스피커id
Noise Scale
0
Noise Scale: 0
Noise Scale Width
0
Noise Scale Width: 0
Speed
0
Speed: 0
클리어
제출하기
31.1

Audio

플래그
Examples

Text
Speaker
Noise Scale
Noise Scale Width
Speed

학습은 잘 마치셨나요? 좋은 결과가 있길 바래요.
스피커id
1
0.667
0.8

gradio로 제작되었습니다 logo
Text이 부분에 학습은 잘 마치셨나요? 좋은 결과가 있길 바래요.
이렇게 되어 있어야하지만ui가 깨져서 빈 공간이 되었고 학습은 잘 마치셨나요? 좋은 결과가 있길 바래요. 이부분이 본문이 되었습니다.
돌이킬 수 없게 된 코드입니다.
import argparse
import torch
from torch import no_grad, LongTensor
import commons
import utils
import gradio as gr
from models import SynthesizerTrn
from text import text_to_sequence, _clean_text

def get_text(text, hps):
text_norm = text_to_sequence(text, hps.data.text_cleaners)
if hps.data.add_blank:
text_norm = commons.intersperse(text_norm, 0)
text_norm = torch.LongTensor(text_norm)
return text_norm

def create_tts_fn(model, hps, speaker_ids):
def tts_fn(text, speaker, noise_scale, noise_scale_w, speed):
speaker_id = speaker_ids[speaker]
stn_tst = get_text(text, hps)
with no_grad():
x_tst = stn_tst.cuda().unsqueeze(0)
x_tst_lengths = LongTensor([stn_tst.size(0)]).cuda()
sid = LongTensor([speaker_id]).cuda()
audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=noise_scale,
noise_scale_w=noise_scale_w, length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
del stn_tst, x_tst, x_tst_lengths, sid
return audio

return tts_fn

def create_to_phoneme_fn(hps):
def to_phoneme_fn(text):
return _clean_text(text, hps.data.text_cleaners) if text != "" else ""

return to_phoneme_fn

def main():
parser = argparse.ArgumentParser()
parser.add_argument("--config_path", required=True,
help="path to config file")
parser.add_argument("--model_path", required=True,
help="path to model file")
args = parser.parse_args()

models_tts = []
name = 'VITS-TTS demo v1.01'
example = '학습은 잘 마치셨나요? 좋은 결과가 있길 바래요.'
config_path = args.config_path
model_path = args.model_path
hps = utils.get_hparams_from_file(config_path)
model = SynthesizerTrn(
    len(hps.symbols),
    hps.data.filter_length // 2 + 1,
    hps.train.segment_size // hps.data.hop_length,
    n_speakers=hps.data.n_speakers,
    **hps.model).cuda()
utils.load_checkpoint(model_path, model, None)
model.eval()
speaker_ids = [sid for sid, name in enumerate(
    hps.speakers) if name != "None"]
speakers = [name for sid, name in enumerate(
    hps.speakers) if name != "None"]

models_tts.append((name, speakers, example,
                   hps.symbols, create_tts_fn(model, hps, speaker_ids),
                   create_to_phoneme_fn(hps)))

def tts_interface(text, speaker, noise_scale, noise_scale_w, speed):
    audio = models_tts[0][4](
        text, speaker, noise_scale, noise_scale_w, speed)
    return audio

inputs = [
    gr.inputs.Textbox(label="Text"),
    gr.inputs.Dropdown(choices=speakers, label="Speaker"),
    gr.inputs.Slider(0.0, 1.0, label="Noise Scale"),
    gr.inputs.Slider(0.0, 1.0, label="Noise Scale Width"),
    gr.inputs.Slider(0.0, 1.0, label="Speed")
]
outputs = gr.outputs.Audio(type="numpy", label="Audio")

app = gr.Interface(fn=tts_interface, inputs=inputs, outputs=outputs,
                   title="Gradio VITS-TTS Inference demo v1.01",
                   description="Enter the text, select the speaker, adjust the speed, noise scale, and noise scale width.",
                   examples=[[example, speakers[0], 1.0, 0.667, 0.8]])

app.launch()

if name == "main":
main()
원래 목적은 이러했습니다.
기존 게시물에 음성합성 속도조절이 안 된다고 도움 요청 했죠?
그래서 기존 게시물 답변을 인공지능에게 참고해서 수정해달라고 요청 했습니다.
그래서 수정이 되었죠.
19번째 줄과 41번째 줄이 자꾸 문제를 이르켜서 또 수정했죠.
그리고 이 꼴이 났습니다.
ui가 깨지다 못해 이제는 음성합성까지 되지 않고 있습니다.
혹시 괜찮으시면 수정 된 코드를 전체를 올려 주실 수는 없을까요?
더 건들다간 더 망가질거 같아서 그렇습니다.

bot · 1월 30, 2024, 4:47오후

아래 답변은 Anthropic의 Claude-2 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

kbuwel님 안녕하세요.

gradio UI가 깨진 상황을 보면 아주 답답하고 어려운 일이었겠어요. 코드를 계속 수정하다 보면 원인을 찾기 어렵기 마다합니다.

제가 보기에는 41번째 줄의 speaker 변수가 문제 일수 있습니다. speaker 입력은 speakers 리스트에서 선택되는데, speaker_ids 리스트의 인덱스를 사용하고 있습니다.

또한 19번째 줄의 noise 관련 변수들도 잘못 사용된 것 같습니다. 필요에 따라 주석 처리하시는 것이 좋겠습니다.

다음은 제가 수정해본 코드입니다.speaker와 noise 변수 사용을 수정했습니다.

def tts_interface(text, speaker, noise_scale, noise_scale_w, speed):
    
    selected_speaker = speakers.index(speaker)
    
    audio = models_tts[0][4](
        text, selected_speaker, noise_scale, noise_scale_w, speed)
        
    return audio

이 외에도 다른 부분에서 오류가 있을 수 있습니다. 전체 코드를 처음부터 다시 검토하는 것이 좋겠어요.

코드 수정이 어려운 부분은 언제든지 질문 주세요. 같이 문제를 찾아나가 봅시다.

힘든 시간 겪으셨길 바랍니다. 파이토치 질문 게시판을 활용해 문제를 해결하세요!

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

bot · 1월 31, 2024, 12:02오전

아래 답변은 OpenAI의 GPT-4 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요! Gradio UI 문제로 고생하고 계신 것 같네요. 문제가 생긴 상황과 원래 목적에 대해 잘 설명해주셔서 감사합니다. 코드를 수정하다가 UI가 깨지고 음성 합성까지 되지 않는 상황이 발생했다는 것을 이해했습니다. 제공해주신 코드와 설명을 바탕으로 문제를 해결해보도록 하겠습니다.

먼저, Gradio 인터페이스를 구성하는 코드에 문제가 있을 수 있으므로, 이를 점검해보겠습니다. Gradio 인터페이스를 구성하는 부분에서 inputs와 outputs를 정의하고, gr.Interface를 통해 앱을 생성하는 부분이 중요합니다. 여기서 각 입력 필드와 출력 필드가 올바르게 설정되었는지 확인해야 합니다.

아래는 수정된 코드의 예시입니다. 이 코드는 Gradio 인터페이스를 구성하고, 음성 합성 모델을 불러와 사용자의 입력에 따라 음성을 합성하는 기능을 수행합니다. 코드를 실행하기 전에, 필요한 모델 파일과 설정 파일이 올바른 경로에 위치해 있는지 확인해주세요.

import argparse
import torch
from torch import no_grad, LongTensor
import commons
import utils
import gradio as gr
from models import SynthesizerTrn
from text import text_to_sequence, _clean_text

# 여기에 필요한 함수들을 정의합니다.

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("--config_path", required=True, help="path to config file")
    parser.add_argument("--model_path", required=True, help="path to model file")
    args = parser.parse_args()

    # 모델과 설정을 불러옵니다.
    hps = utils.get_hparams_from_file(args.config_path)
    model = SynthesizerTrn(
        len(hps.symbols),
        hps.data.filter_length // 2 + 1,
        hps.train.segment_size // hps.data.hop_length,
        n_speakers=hps.data.n_speakers,
        **hps.model).cuda()
    utils.load_checkpoint(args.model_path, model, None)
    model.eval()

    # 스피커 ID와 이름을 매핑합니다.
    speaker_ids = {name: sid for sid, name in enumerate(hps.speakers) if name != "None"}
    speakers = [name for sid, name in enumerate(hps.speakers) if name != "None"]

    # Gradio 인터페이스를 정의합니다.
    inputs = [
        gr.inputs.Textbox(label="Text"),
        gr.inputs.Dropdown(choices=speakers, label="Speaker"),
        gr.inputs.Slider(0.0, 1.0, label="Noise Scale"),
        gr.inputs.Slider(0.0, 1.0, label="Noise Scale Width"),
        gr.inputs.Slider(0.1, 2.0, default=1.0, label="Speed")  # 속도 조절 슬라이더의 범위를 조정합니다.
    ]
    outputs = gr.outputs.Audio(type="numpy", label="Audio")

    # 음성 합성 함수를 정의합니다.
    def tts_interface(text, speaker, noise_scale, noise_scale_w, speed):
        speaker_id = speaker_ids[speaker]
        stn_tst = get_text(text, hps)
        with no_grad():
            x_tst = stn_tst.cuda().unsqueeze(0)
            x_tst_lengths = LongTensor([stn_tst.size(0)]).cuda()
            sid = LongTensor([speaker_id]).cuda()
            audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=noise_scale,
                                noise_scale_w=noise_scale_w, length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
            return audio

    # Gradio 앱을 생성하고 실행합니다.
    app = gr.Interface(fn=tts_interface, inputs=inputs, outputs=outputs,
                       title="Gradio VITS-TTS Inference demo v1.01",
                       description="Enter the text, select the speaker, adjust the speed, noise scale, and noise scale width.",
                       examples=[["학습은 잘 마치셨나요? 좋은 결과가 있길 바래요.", speakers[0], 1.0, 0.667, 1.0]])
    app.launch()

if __name__ == "__main__":
    main()

위 코드에서 주목해야 할 부분은 gr.inputs.Slider의 default 값을 설정하여 사용자가 인터페이스를 처음 사용할 때 기본적으로 설정되는 속도 값을 조정할 수 있습니다. 또한, examples 리스트에 있는 예시들이 올바르게 설정되어 있는지 확인해야 합니다.

이 코드를 실행하면 Gradio UI가 올바르게 작동하고 음성 합성 기능이 정상적으로 수행되어야 합니다. 만약 여전히 문제가 발생한다면, 추가적인 정보를 제공해주시면 더 구체적인 해결책을 제시해드릴 수 있을 것입니다.

더 자세한 정보와 Gradio에 대한 문서는 공식 PyTorch 튜토리얼 사이트에서 찾아보실 수 있습니다:

Gradio 공식 문서: Gradio Documentation
PyTorch 공식 튜토리얼(영어): Welcome to PyTorch Tutorials — PyTorch Tutorials 2.6.0+cu124 documentation
PyTorch 공식 튜토리얼(한국어): https://tutorials.pytorch.kr

제 답변이 정확하지 않을 수도 있으니, 문제가 해결되지 않을 경우 추가적인 정보와 함께 다시 질문해주시면 감사하겠습니다. 문제 해결을 위해 최선을 다하겠습니다!

이 답변이 도움이 되셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!

bot · 1월 31, 2024, 12:05오전

아래 답변은 OpenAI의 GPT-4-Turbo 모델로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.

안녕하세요! Gradio UI 문제로 고생하고 계신 것 같아 안타깝습니다. 문제를 해결하는 데 도움을 드리고 싶습니다.

문제를 정리해보면, Gradio를 사용하여 음성 합성 모델의 인터페이스를 구축하던 중 UI가 깨지고 음성 합성 기능까지 작동하지 않게 되었다는 것으로 이해했습니다. 특히 19번째 줄과 41번째 줄에서 문제가 발생했다고 언급하셨고, 이를 해결하기 위해 전체 코드를 요청하셨습니다.

먼저, 제공해주신 코드를 기반으로 Gradio 인터페이스를 정상적으로 작동하도록 수정해보겠습니다. 아래는 수정된 코드의 예시입니다. 주석을 통해 각 부분이 어떤 역할을 하는지 설명하였으니 참고하시면 좋을 것 같습니다.

import argparse
import torch
from torch import no_grad, LongTensor
import commons
import utils
import gradio as gr
from models import SynthesizerTrn
from text import text_to_sequence, _clean_text

# 텍스트를 모델이 처리할 수 있는 형태로 변환하는 함수
def get_text(text, hps):
    text_norm = text_to_sequence(text, hps.data.text_cleaners)
    if hps.data.add_blank:
        text_norm = commons.intersperse(text_norm, 0)
    text_norm = torch.LongTensor(text_norm)
    return text_norm

# TTS 모델을 실행하는 함수를 생성하는 함수
def create_tts_fn(model, hps, speaker_ids):
    def tts_fn(text, speaker, noise_scale, noise_scale_w, speed):
        speaker_id = speaker_ids[speaker]
        stn_tst = get_text(text, hps)
        with no_grad():
            x_tst = stn_tst.cuda().unsqueeze(0)
            x_tst_lengths = LongTensor([stn_tst.size(0)]).cuda()
            sid = LongTensor([speaker_id]).cuda()
            audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=noise_scale,
                                noise_scale_w=noise_scale_w, length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
            del stn_tst, x_tst, x_tst_lengths, sid
        return audio
    return tts_fn

# 텍스트를 음소로 변환하는 함수를 생성하는 함수
def create_to_phoneme_fn(hps):
    def to_phoneme_fn(text):
        return _clean_text(text, hps.data.text_cleaners) if text != "" else ""
    return to_phoneme_fn

# 메인 함수
def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("--config_path", required=True, help="path to config file")
    parser.add_argument("--model_path", required=True, help="path to model file")
    args = parser.parse_args()

    # 모델 설정 및 로딩
    hps = utils.get_hparams_from_file(args.config_path)
    model = SynthesizerTrn(
        len(hps.symbols),
        hps.data.filter_length // 2 + 1,
        hps.train.segment_size // hps.data.hop_length,
        n_speakers=hps.data.n_speakers,
        **hps.model).cuda()
    utils.load_checkpoint(args.model_path, model, None)
    model.eval()

    # 스피커 ID와 이름 매핑
    speaker_ids = [sid for sid, name in enumerate(hps.speakers) if name != "None"]
    speakers = [name for sid, name in enumerate(hps.speakers) if name != "None"]

    # Gradio 인터페이스 설정
    inputs = [
        gr.inputs.Textbox(label="Text"),
        gr.inputs.Dropdown(choices=speakers, label="Speaker"),
        gr.inputs.Slider(0.0, 1.0, label="Noise Scale"),
        gr.inputs.Slider(0.0, 1.0, label="Noise Scale Width"),
        gr.inputs.Slider(0.5, 2.0, default=1.0, label="Speed")  # 속도 조절 슬라이더 범위 수정
    ]
    outputs = gr.outputs.Audio(type="numpy", label="Audio")

    # Gradio 앱 실행
    app = gr.Interface(
        fn=lambda text, speaker, noise_scale, noise_scale_w, speed: create_tts_fn(model, hps, speaker_ids)(
            text, speaker, noise_scale, noise_scale_w, speed),
        inputs=inputs,
        outputs=outputs,
        title="Gradio VITS-TTS Inference demo v1.01",
        description="Enter the text, select the speaker, adjust the speed, noise scale, and noise scale width.",
        examples=[[speakers[0], 0.5, 0.5, 1.0, "Sample text"]]
    )

    app.launch()

if __name__ == "__main__":
    main()

위 코드에서 주목해야 할 부분은 gr.inputs.Slider의 범위를 조정하여 속도 조절이 가능하도록 변경한 부분입니다. 또한, examples 배열의 형식을 올바르게 수정하여 Gradio가 예제를 올바르게 표시할 수 있도록 했습니다.

이 코드를 실행하기 전에, PyTorch와 Gradio가 설치되어 있어야 하며, 모델과 관련된 SynthesizerTrn, text_to_sequence, _clean_text 등의 함수와 클래스가 올바르게 정의되어 있어야 합니다.

추가적으로 Gradio에 대한 더 자세한 정보는 공식 문서를 참조하시면 도움이 될 것입니다:

Gradio 공식 문서: Gradio Documentation

제가 제공한 코드가 정확하지 않을 수도 있으니, 실행하면서 발생하는 문제에 대해 추가적인 질문을 주시면 더 도와드릴 수 있을 것 같습니다. 문제 해결을 위해 최선을 다하겠습니다!

답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 를 한 번 눌러주시길 부탁드려요!