STUDY/Model(3)
-
Transformer 3. Attention is all you need
최종 : Attention is all you need Attention을 적용한 인코더-디코더 모델 특징에서 Attention을 적용하여 유동적인 Context vector를 얻어, 효과적인 번역을 수행하였지만, 여전히 RNN셀을 사용해 순차적으로 계산한다는 점에서 속도가 느리고, Gradient Vanishing 문제 또한 존재하였다. Transformer는 해당 두 문제점을 해결하며 등장하였다. Transformer : Attention is all you need Transformer 모델은 Attention 만을 사용하는 모델이다. (제목 그대로) RNN의 순차적인 계산이 아닌, Attention 연산 (행렬곱) 한번 수행 RNN이 사용되지 않기 때문에 순서정보가 없어서 Positional En..
2022.03.29 -
Transformer 2. Attention 매커니즘이 추가된 인코더-디코더
RNN based Encoder-Decoder with ATTENTION 전통적인 RNN기반의 인코더-디코더의 특징에서 " Context vector가 고정된 크기다. 따라서 긴 입력문장의 경우 모든정보 압축이 힘들다. " 라고 하였다. 해당 문제점을 보완하기 등장한 매커니즘이 Attention이다. Attention Attention이란 디코더에서 출력단어를 예측하는 매시점마다, 인코더에서의 출력결과를 다시한번 참고하는것 해당 시점에서 예측해야할 단어와 연관이 있는 입력단어 부분을 집중(Attention)하여 보는 것 내가 생각하는 표현 : 모든 관계를 파악하는것이 Attention 이다. 1:1로 element간의 관계를 확인하는 과정이 Attention에 있기 때문 Attention을 적용한 인코더..
2022.03.29 -
Transformer 1. 전통적인 RNN기반 인코더-디코더 모델
Seq2Seq Model RNN 기반 인코더-디코더 모델 전통적인 RNN기반 인코더-디코더 모델은 위와 같다. 순차적으로 들어오는 입력들에 대해서 전부 Hidden state를 계산하여 다음 time-step으로 넘김 인코더에서는 입력된 문장들의 정보를 압축하여 Context vector 얻음 디코더에서는 Context vector로 부터 번역된 문장을 도출 특징은 다음과 같다. Context vector가 고정된 크기다. 따라서 긴 입력문장의 경우 모든정보 압축이 힘들다. 해당 문제를 보완하기 위해 등장한 매커니즘이 "Attention" (나중에 나옴) 전체 구조 및 과정은 위와 같다. 입력 문장 토큰화 수행 토큰들은 Word embedding 통과 각 RNN셀의 입력으로 들어감 인코더 마지막 셀의 H..
2022.03.29