Transformer 3. Attention is all you need
최종 : Attention is all you need Attention을 적용한 인코더-디코더 모델 특징에서 Attention을 적용하여 유동적인 Context vector를 얻어, 효과적인 번역을 수행하였지만, 여전히 RNN셀을 사용해 순차적으로 계산한다는 점에서 속도가 느리고, Gradient Vanishing 문제 또한 존재하였다. Transformer는 해당 두 문제점을 해결하며 등장하였다. Transformer : Attention is all you need Transformer 모델은 Attention 만을 사용하는 모델이다. (제목 그대로) RNN의 순차적인 계산이 아닌, Attention 연산 (행렬곱) 한번 수행 RNN이 사용되지 않기 때문에 순서정보가 없어서 Positional En..
2022.03.29