허깅페이스 선학습된 T5 모델로 영어-한국어 번역기 만들기 튜토리얼

안녕하세요.

페이스북말고 파이토치 사용자 모임 discuss에는 처음 글을 올립니다.

요즘 언어 관련 딥러닝이 정말 핫한데요. 마치 5, 6년전쯤에 CNN 계열 모델들이 인기를 끌 때와 비슷한 듯합니다. 이게 다 트랜스포머 때문일 것 같은데요. 관련해서 여러 모델이 있고 또 허깅페이스에서 너무 다양한 모델을 너무 다양한 방법으로 사용할 수 있도록 라이브러리를 제공하기 때문에 입문자는 혼란스럽기까지 합니다. ㅠㅠ

제가 자주 가는 TF-KR에 오전에 글을 올렸었는데 파이토치 커뮤니티에도 약간이라도 기여하고싶어 글을 올립니다.

기술서적등에서 많이 다루는 번역기 예제는 대부분 영어-스페인어, 영어-프랑스어 예제고 영어-한국어 예제는 잘 없고 심지어 인터넷 검색해봐도 잘 안나오는데요. 현재는 한국어라도 별로 특별할게 없는 시절이 되어서 영어-한국어 번역기 튜토리얼이 잘 없다는게 좀 이상한데요. 마침 얼마전 누구나 한국어 번역기를 만들 수 있다는 NLP 장인 김기현님는 포스팅을 보고 필 받아서.

3.1절 기념으로! 허깅페이스 트랜스포머스 라이브러리 사용해서 데이터셋 전처리부터 시작해서 T5모델을 사용해서 처음부터 끝까지 영한 번역기 학습시키는 튜토리얼을 작성해봤습니다. 3.1절 휴일 포함해서 한 3일 동안 작성한 거구요. 누구나 쉽게 따라 할 수 있게 적었습니다. 대신 트랜스포머 모델에 대한 기본적인 이해는 조금 있어야 합니다.

사실 언어만 한국어로 바꾼것이지 대부분 내용은 허깅페이스 튜토리얼 코스에 다 나오는 내용입니다. 튜토리얼 코스는 영어-프랑스어, 언어가 바뀌면 결국 토크나이저 문제가 되는데 어차피 선학습 모델 사용할 거라 토크나이저도 이미 다 준비된 상태라서 한국어라고 별 특별할게 없네요.;;;

트랜스포머, 허깅페에스 공부에 조금이라도 도움이 되었음 좋겠네요.

아래 링크로 가면 글을 볼 수 있고 구글 코랩에서도 실행하면서 읽어볼 수 있습니다.

글보러가기

앞으로 좋은 주제 있으면 많이 공유하도록 하겠습니다.

읽어주셔서 감사합니다.

5개의 좋아요

혹시 논문이 등장하는 중요 단어 같은 경우 번역이 되지 않게 하는 것도 가능한가요? 몇몇 모델은 tf-idf로 키워드 추출해서 번역하지 않도록 하는 모델도 있어서,,

논문 번역 같은 경우 중요 키워드를 번역해버리면 이해하기 힘들게 되더군요..

3개의 좋아요

특정 단어는 번역하지 않게..
이게 단어 단위로 1:1로 번역에 되는게 아니라서 그런 방법이 가능한지는 모르겠습니다.
tf-idf로 키워드 추출해서 번역안하게 하는 논문 소개 해주시면 저도 한번 확인해보고 싶네요.

3개의 좋아요

도움이 될지 모르지만 공유드립니다!

연구원으로 계신 pega님 블로그입니다. 논문 번역 모델링을 만드셨고 블로그로 일부 공유 주셨습니다. 아마 알고 있으실거같지만 후진양성을 위해 올립니다. :upside_down_face:

2개의 좋아요