새소식

딥러닝

Domain Generalization : Data Manipulation Methods

  • -

Data Augmentation

 

도메인이 다르다고 하면 과연 이 세 장의 이미지에서 "무엇이" 다른 걸까요 ? 

이미지에는 Semantic (Content) 정보와 Apperance (Style) 정보가 있습니다. 

 

따라서 컨텐츠만 잘 하면 새로운 스타일의 이미지가 왔을 때 잘 분류할 수 있지 않을까요 ?

그리고, 1번과 3번 이미지는 비슷한 스타일이기는 하지만 자세라던지, 귀의 방향 등이 다릅니다. 그러면 1번 컨텐츠에 3번 스타일을 적용한 새로운 이미지를 생성한다면 학습에 도움이 되지 않을까요 ?

 

이것이 Domain Generalization 에 사용되는 Data Augmentation 의 방법입니다. 

 

그러면 Contents 를 표현하는 것과 Style 을 표현하는 것은 무엇이 다를까요 ?

 

ADaIN

Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

 

ADaIN 은 Style Transfer 에서 많이 사용되는 방법입니다. 

 

이 논문에서는 Style 과 Content 가 무엇과 연관이 있는지에 관한 아이디어를 제안했습니다. 

 

이때 γ 와 β 는 스타일과 관련이 있고, ρ와 σ는 컨텐츠와 관련이 있다고 했습니다. 그래서 ADaIN 에서는 γ 와 β 가 학습 대상입니다. 

 

만약 수채화 풍의 데이터를 복원하는 모델을 만들었을 때 학습된 수채화 풍 γ 와 β 가 있다고 하면, 스케치에 대한 이미지를 넣어서 Instance Normalization 할 때 수채화 풍 γ 와 β 를 사용해서 학습을 하면 디코딩 후에 수채화 풍으로 변하게 됩니다.

 

그래서 스타일마다 γ 와 β 를 학습해서 스타일을 바꿔가면서 Data Augmentation 을 할 수 있습니다. 

Mix - Style

Domain Generalization with MixStyle

 

이 방법은 내 스타일과 다른 스타일들을 섞어서 사용합니다. 

그런데 섞는 것에 두 가지 방법이 있습니다. 

 

1. 두 개의 데이터셋에 대해서 도메인을 서로 알 때 : 순서대로 섞음

2. 모를 때 : 랜덤하게 섞음. 

 

그런데 섞을 때 Beta Distribution 을 사용합니다. 그래프 모양을 보고 '이게 왜 섞는거냐, 1 아니면 0아니냐' 라고 할 수도 있지만 이렇게 하는 이유가 있습니다. 저게 제일 잘 되기 때문입니다.

 

A Fourier - based Framework

A Fourier - based Framework for Domain Generalization

 

이미지가 있을 때 주파수 단위로 Convolution 을 하는 게 Fourier transform 인데, 이를 하게 되면 한 이미지가 Amplitude와 Phase 로 정의됩니다. 

이때 Amplitude 는 Style 과 연관이 있고, Phase 는 Contents 와 연관이 있다는 것입니다. 

 

Feature Augmentation

A Simple Feature Augmentation for Domain Generalization

만약 Decision Boundary 에서 Feature 를 Augmentation 하면, 얘네를 자르기 위해서 Classifier 가 다 떼어놓게 됩니다. 

 


위 내용은 경희대학교 소프트웨어융합학과 황효석 교수님의 2023년 <심층신경망을 이용한 로봇 인지> 수업 내용을 요약한 것입니다.

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.