imbalanced data처리 질문

회사에서 multi label classfication을 수행하는 인공지능을 만들고 있습니다.
그런데 한글 text dataset을 가지고 잇는데 문제는 imbalance하다는 점입니다.

imbalance한 데이터의 전처리가 필요한데 imblearn 모듈이 있다는 것은 알고 있지만
이것을 text에 적용해도 되는지도 모르겠고, multi label에 사용해도 되는지도 모르겠습니다.
multi label classfication에 맞고, text에도 맞는 방법의 oversampling은 없는지 궁금합니다.

좋아요 2

안녕하세요?

imblearn 라이브러리는 정형데이터에 적용되어야 하므로 텍스트에는 적용이 어렵습니다. 텍스트를 tf-idf나 임베딩을 통해 document-term matrix로 만들면, 적용할 수는 있겠으나 오히려 성능이 악화할 가능성이 큽니다.

minor classes에 속하는 텍스트를 augmentation하는 방법이 가장 현실성 있어 보입니다. 텍스트 증강에는 back-translation 등 기법이 있으나 (이미지와는 다르게) 그 효용이 제한적인 것으로 알려져 있습니다.

좋아요 2