제목에 적힌 링크의 파일은 koboldcpp에서 실행 가능한 모델입니다.
라마cpp로 되어있는거 같습니다.
언어 모델을 직접 실행 하면
당신: 자기소개
KoboldAI: 저는 사용자와의 대화를 지원하고 참여하도록 설계된 Kobold AI입니다. 나의 지식은 역사, 과학, 예술, 문학, 스포츠, 시사 등 다양한 주제를 포괄할 정도로 광범위합니다. 또한 롤플레잉 시나리오나 게임에 참여할 수 있고 사용자 입력에 창의적으로 반응할 수도 있습니다.
이건 예시로 가져 온 채팅 내용입니다.
소년은 개울가에서 소녀를 보고 곧 윤초시네 증손녀 딸이라는 것을 알 수 있었다
. 소녀는 개울에다 손을 운동하고 물장난을 하고 있을 것입니다.
서울에서는 이런 개울물을 사용할 수 없습니다.
기억나는 날 소녀는, 학교에서 돌아오는 길에 물장난이었습니다.
떨어져서, 갈라서 개울 기슘에서 하더니, 오늘은 검다리에서만
나만 하고 있다. 소년은 개울둑에 앉는다. 소녀가 비키를
기다리는 사람입니다.
요행의 사람들이 있어, 소녀가 길을 비켜주도록 합니다.
소녀는 먼저 도우러옵니다. 소년은 그렇지 않을 수 있습니다.
소년은 개울가로 놔두지 않을 것입니다.
위의 내용은 소나기의 일부분을 입력했는데 언어모델에서 만든 이야기입니다.
무지 어색합니다.
제목의 언어모델을 이어서 학습하려고 합니다.
텍스트로 된 소설은 많이 있습니다.
그런데 제목의 언어모델을 어떻게 이어서 학습하는가가 문제입니다.
문장단위로 소설을 가공했다고합시다.
tts는 g_0.pth를 가져다가 대본과 wav 파일이 있으면 이어서 학습이 가능합니다.
다른 목소리 다른 대본으로도 된단 말이죠.
그런데 gguf는 안 된다고 합니다.
뭐가 손상된 파일이라 안된다고 합니다.
그렇다면 제목의 언어모델은 절대 이어서 학습 할 수없다는 결론이 나옵니다.
그런데 말입니다.
Xwin-Mlewd-13B
이 모델의 내용을 보면 gguf인데 이어서 학습했다는 내용이 나옵니다.
저는 지금 많이 혼란스럽습니다.
아카에서는 gguf로 이어서 학습이 안된다고 했는데 KoboldAI/LLaMA2-13B-Tiefighter · Hugging Face 여기서는 이어서 학습을 했다는 내용이 나옵니다.
도대체 어떻게 이어서 학습을 했는지 전 궁금합니다.
제 궁금증이 해결된다면 좋겠습니다.
저 어색한 부분을 고치는 좋은 방법은 무엇입니까?
라마cpp가 한국어를 이해는 한다고 합니다만. 제 입장에서는 무지 어색합니다.
데이터셋을 늘리면 해결 되는 문제입니까?
마지막으로 소설을 보면 이름이 나옵니다.
사람 이름 말입니다.
자두, 민지. 은희. 윤석 성운, 둘리 미영, 민정, 지훈, 지수, 철수, 영희, 석훈 등등
이 수많은 이름은 어떻게 처리해야 좋을까요?
소설의 내용으로 채팅을 한다고 합시다.
예를들어 소나기의 소녀하고 채팅을 합니다.
소녀의 이름을 제가 원하는 이름으로 영희나 은희로 바꾼다고 합시다.
제목에 있는 언어모델로 채팅을 한다고 가정합니다.
koboldcpp로 채팅을합니다.
원하는 이름 영희야 안녕이라고하면 소녀가 영희가 되고 영희가 대답을 할건데 소녀가 영희로 인식하는 원리를 알고싶습니다.