먼저 전 교제를 보고싶어도 못본다는 것을 미리 말합니다.
저에게는 교제가 종이 그 이상도 그 이하도 아닙니다.
전자책도 그냥 유리판 또는 플라스틱 그 이상도 이하도 아닙니다.
교제를 보고 학습하라는 분들이 계셔서 적어 봤습니다.
저한테는 교제가 무용지물입니다.
볼 수 있어야 학습을 하던말던할텐데 매우 아쉽습니다.
그래서 지금 고생중입니다.
잡담은 그만하고 본론으로 갑시다.
뭐 이 모델은 nsfw 모델입니다.
koboldcpp에서 작동하면서 한국어가 되는 모델을 찾다보니 위 모델을 선택했습니다.
위의 모델을 잠시 이야기해 봅시다.
시나리오작성 및 가상 채팅이 가능합니다.
제가 원하는 부분도 이 부분입니다.
매일 혼자 놀다보니 좀 심심해서요.
링크는 gguf 파일이지만 원본 파일을 다운받아놓은 상태입니다.
토크나이저 파일 인덱스파일 기타 파일들을 다운받았습니다.
일일히 쓰자니 너무 귀찮네요. 그냥 넘어갑시다.
model-00001-of-00003.safetensors
model-00002-of-00003.safetensors
model-00003-of-00003.safetensors
이 파일들이 용량이 큽니다.
이 파일이 아마 원본 언어모델이겠죠.
토크나이저 모델 토크나이저 환경설정 파일 토크나이저 파일이 있습니다.
뭐 이것들은 별 필요없을거라 생각됩니다.
용량이 큰 언어모델을 튜닝하고싶습니다.
여기서 문제입니다.
aihub 등을 이용해 텍스트파일은 잔뜩 다운받아놓았습니다.
이걸 전처리해야하지 않을까?하는 생각이 듭니다.
무작정 windows의 메모장을 실행해서 텍스트파일들을 모두 한 파일로 복사붙여넣기한다고 언어모델 튜닝이 되지 않을거 같다는 생각이 듭니다.
이 부분을 검색하고 원본 모델 작성자에게 질문을해도 답은 없었습니다.
소년은 개울가에서 소녀를 보자 곧 윤초시네 증손녀 딸이라는 것을 알
수 있었다. 소녀는 개울에다 손을 잠그고 물장난을 하고 있는 것이다.
소나기라는 소설의 일부분입니다.
이걸 언어모델이 학습할 수있도록 만들고싶습니다.
문장 단위로 텍스트 파일로 만들어야한다는 것 정도 알고있습니다.
문장단위로 만든후 작업은 어떻게 진행하면 좋을까요?
그냥 문장단위로 텍스트파일을 하나 만들어서 토큰화 작업하고 바로 언어모델 튜닝을해야합니까? 아니면 다른 작업이 더 필요합니까?
이 부분을 잘 모르겠습니다.