DL 기본개념
2025. 3. 27.
Transformer outline
기존 RNN 모델은 vanishing gradient와 long-term dependency를 해결하지 못하였다.따라서 이를 해결하기 위해 attention을 도입하여 중요한 정보에 가중을 두고 학습할 수 있도록 하여 long-term dependency를 해결했다. 하지만 여전히 순차적 계산으로 인해 병렬화가 불가능했으며, long-term dependency와 encoder가 뽑은 표현에 의존하는 구조가 문제 따라서 Transformer 등장기존해결책RNN은 단어를 순차적으로 처리하는 과정에서 hidden state 하나로 전체 문맥을 압축 -> 정보 손실self-attention을 통해 각 단어가 전체 시퀀스를 바라보며 각 단어의 의미를 벡터로 인코딩함 -> 풍부한 표현장기 의존성과 함께 cnn 기..