딥러닝

Contrastive Learning : BYOL (Bootstrap Your Own Latent)

이때까지 Contrastive Learning 에서는 Negative Sample 이 중요했습니다. 하지만 BYOL 은 이와 조금 다릅니다.

Key Ingredients
- Image Transformations : Comparing embeddings
- Target Networks : Similar to MoCo
- Additional Predictor on top of online network
Interest of the method
- Simple training procedure
- No negative examples
- Work at the embedding level : no pseudo-labels

BYOL 은 Negative Sample 을 사용하지 않고, Positive Sample 들 간에 얼마나 가까운지를 측정하는 L2 Loss 를 사용합니다. BYOL 은 그렇기 때문에 철학이나 접근 방식이 Contrastive Learning 보다는 Knowledge Distillation 이나 Reinforcement Learning 과 좀 더 유사합니다. Temporal Difference 에서는 update 를 어떻게 할 것인지가 중요했습니다. BYOL 도 이와 마찬가지입니다.

x 는 input 이미지이고, t 와 t' 는 augmentation 입니다. 그런데 sg 는 무엇일까요 ? sg 는 stop gradient 입니다. 아래 네트워크는 그 이후로 학습을 하지 않습니다. 하지만 위에 네트워크는 계속 backpropagation 을 진행하며 아래 target 네트워크와 비교를 진행합니다.

이렇게 되면 Feature 가 학습이 될까요 ?

여기 사용되는 인코더들은 Random Initialization 이 되어 있는 애들입니다. 학습을 시키면 둘이 가까워지기는 하겠지만, 이렇게 학습된 Feature 들이 좋은 Feature 라고 할 수 있을까요 ?

우리의 목표는 결국 Online 네트워크가 Target 네트워크를 따라가게끔 하는 것입니다. 그리고 우리가 사용하는 것은 Online 인코더의 Feature 값을 downstream 해서 쓰게 됩니다.

TD 에서 타겟을 고정해놓고 아주 조금만 업데이트하면서 반영했듯이, BYOL 에서도 타우만큼 기존 값을 쓰고 (1-타우) 만큼 새로운 값을 쓰게 됩니다.

이런 방식이 왜 효과가 있을까요 ?

생각해 볼 수 있는 부분은, Target 네트워크는 이미 학습이 되어 있기 때문에 맞던 틀리던 간에 이 Feature 들 가지고 내가 뭔가를 해 보려고 정리를 어느 정도 했다고 볼 수 있습니다. 그냥 뿌려져 있는 Feature 들 가지고 정리를 하려고 시도한 값들입니다.

그리고 Online 네트워크는 이 Feature 들을 또 정리를 하려고 해본 거죠.

Collapsing Problem

GAN 에서 많이 나오는 Undesirable Equillibria 라는 것이 있습니다.

만약 모든 파라미터가 다 0 이라면, Loss 가 다 0 이 될 것입니다. 그러면 이게 Optimal 하지 않습니까 ?

그럼 이 네트워크는 모든 파라미터가 다 0 이 되도록 학습하게 될 겁니다.

기존 Contrastive Learning 에서는 InfoNCE 등을 사용하며 positive sample 들은 가깝게, negative sample 들은 멀게 했었습니다. 하지만 BYOL 은 negative sample 은 사용하지 않습니다.

BYOL 의 답변

이런 여러 가지 문제점들에 대한 저자의 답변은 다음과 같습니다.

1. Collapsing problem 이 발생하지 않더라.

위 내용은 경희대학교 소프트웨어융합학과 황효석 교수님의 2023년 <심층신경망을 이용한 로봇 인지> 수업 내용을 요약한 것입니다.

저작자표시

'딥러닝' 카테고리의 다른 글

Backdoor Attack on Self-Supervised Learning (1)	2023.11.24
MAE : Masked AutoEncoder🤿 (1)	2023.11.23
Contrastive Learning : Moco (Momentum Contrast) (0)	2023.11.16
Self - Supervised Learning : Contrastive Learning (0)	2023.11.09
Self - Supervised Learning : Pretext Task (0)	2023.11.09

Contents

새소식

인기 검색어

Contrastive Learning : BYOL (Bootstrap Your Own Latent)

Collapsing Problem

BYOL 의 답변

'딥러닝' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바