Bert 가 마지막에 last hidden state 랑 pooler 를 반환하는걸로 아는데
여기서 cls를 얻기위해 last hidden state에 첫번째칸(last_hidden_state [0])를 이용하는걸로 알고있습니다 .
Pooler층은 그냥 tanh함수를 입힌거 같은데
일단 pooler와 cls의 차이점이 궁금합니다.
그리고
위에 그림에서 cls를 저렇게 표현하던데 그러면 여기서는 last_hidden_state[0]의 첫번째 줄이 cls라는 건데 이것도 좀 헷갈리네요.
지금 각각의 shape이 헷갈리는거 같은데…
질문남깁니다,
이 글은 마지막 댓글이 달린지 오래(30일)되어 자동으로 닫혔습니다. 댓글 대신 새로운 글을 작성해주세요!