Transformer
-
트랜스포머 Transformer 1. 구조 Multi-head self-attention Feed-forward network Layer normalization Shortcut connection Positional encoding 2. Advantages of Transformer Long - range relationship : Attention 덕분에 (이전 포스팅 : Non-local Filter 참조) Parallelized computing : Multi-head self attention 이 병렬화를 가능하게 함. Capacity for big data : 파라미터가 엄청 많다 ( = 모델이 크다, 학습 시간이 길다) 3. Transformer 의 구성 트랜스포머는 인코더와 디코더로 구성되..
Transformer 완전 정복하기😎트랜스포머 Transformer 1. 구조 Multi-head self-attention Feed-forward network Layer normalization Shortcut connection Positional encoding 2. Advantages of Transformer Long - range relationship : Attention 덕분에 (이전 포스팅 : Non-local Filter 참조) Parallelized computing : Multi-head self attention 이 병렬화를 가능하게 함. Capacity for big data : 파라미터가 엄청 많다 ( = 모델이 크다, 학습 시간이 길다) 3. Transformer 의 구성 트랜스포머는 인코더와 디코더로 구성되..
2023.09.25 -
Transformer 는 Attention 기반의 아키텍쳐입니다. 그렇다면 Attention 이란 무엇일까요 ? 기계 학습을 위해 다양한 학습 방법이 강구되어오고 있지만, 사람이 어떤 식으로 학습하는지를 관찰하고 이를 모방하는 것으로 많은 연구들이 진행되어오고 있습니다. 이때, 사람은 어떤 것에 "주목" 하는 것을 자연스럽게 하고, 이것이 학습에 매우 중요합니다. 우리는 정보를 모두 동일한 중요도로 처리하지 않고, 강조해야 할 특정 부분에 주목함으로써 한정된 brain resource 의 효율성을 높입니다. 따라서 딥러닝에서도 어텐션을 통해 특정 information 에 가중치를 둠으로써 정해진 리소스를 효율적으로 사용하고, 추가적으로 noise 를 저감하는 효과가 있습니다. Attention 그렇다면 ..
무엇에 주목할 것인가 ? Channel attentionTransformer 는 Attention 기반의 아키텍쳐입니다. 그렇다면 Attention 이란 무엇일까요 ? 기계 학습을 위해 다양한 학습 방법이 강구되어오고 있지만, 사람이 어떤 식으로 학습하는지를 관찰하고 이를 모방하는 것으로 많은 연구들이 진행되어오고 있습니다. 이때, 사람은 어떤 것에 "주목" 하는 것을 자연스럽게 하고, 이것이 학습에 매우 중요합니다. 우리는 정보를 모두 동일한 중요도로 처리하지 않고, 강조해야 할 특정 부분에 주목함으로써 한정된 brain resource 의 효율성을 높입니다. 따라서 딥러닝에서도 어텐션을 통해 특정 information 에 가중치를 둠으로써 정해진 리소스를 효율적으로 사용하고, 추가적으로 noise 를 저감하는 효과가 있습니다. Attention 그렇다면 ..
2023.09.12