안녕하세요.
한밭대학교 머신러닝 연구실 석사과정 임재빈입니다.
이번 CVPR 2022에서 발표된 "Exploring Denoised Cross-video Contrast for Weakly-supervised Temporal Action Localization"에 대해 소개해 드리고자 게시물 작성합니다.!
본 논문은 오직 video-level labels을 가지고 untrimmed video에서 action을 localization하는 것을 목표로 하는
Weakly-supervised Temporal Action Localization에 대한 논문입니다.
본 논문에서는 이 문제를 더 정확하게 해결하기 위해 새로운 알고리즘인 "denoised cross-video contrastive algorithm"을 제안하였습니다.
이 알고리즘에 대한 key design 3가지는
- 노이즈가 있는 contrastive features에 대한 부작용을 완화하고자 "pseudo-label denoising module"을 사용하였습니다.
- 전체 데이터셋을 통해 global contrast를 capture 하기 위해 "region-level feature contrast strategy"을 사용하였습니다.
- action-background 분리, intra-class compactness 그리고 inter-class 분리 하기 위하여 다양한 contrastive learning strategy를 사용하였습니다.
그 결과 벤치마크 데이터셋인 THUMOS'14, ActivityNet1.3 dataset에 대해서 우수한 성능을 보여주었습니다.
해당 논문에 대한 자세한 내용은 제 유튜브 채널에 업로드하였습니다.