Data Augmentation
도메인이 다르다고 하면 과연 이 세 장의 이미지에서 "무엇이" 다른 걸까요 ?
이미지에는 Semantic (Content) 정보와 Apperance (Style) 정보가 있습니다.
따라서 컨텐츠만 잘 하면 새로운 스타일의 이미지가 왔을 때 잘 분류할 수 있지 않을까요 ?
그리고, 1번과 3번 이미지는 비슷한 스타일이기는 하지만 자세라던지, 귀의 방향 등이 다릅니다. 그러면 1번 컨텐츠에 3번 스타일을 적용한 새로운 이미지를 생성한다면 학습에 도움이 되지 않을까요 ?
이것이 Domain Generalization 에 사용되는 Data Augmentation 의 방법입니다.
그러면 Contents 를 표현하는 것과 Style 을 표현하는 것은 무엇이 다를까요 ?
ADaIN
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization
ADaIN 은 Style Transfer 에서 많이 사용되는 방법입니다.
이 논문에서는 Style 과 Content 가 무엇과 연관이 있는지에 관한 아이디어를 제안했습니다.
이때 γ 와 β 는 스타일과 관련이 있고, ρ와 σ는 컨텐츠와 관련이 있다고 했습니다. 그래서 ADaIN 에서는 γ 와 β 가 학습 대상입니다.
만약 수채화 풍의 데이터를 복원하는 모델을 만들었을 때 학습된 수채화 풍 γ 와 β 가 있다고 하면, 스케치에 대한 이미지를 넣어서 Instance Normalization 할 때 수채화 풍 γ 와 β 를 사용해서 학습을 하면 디코딩 후에 수채화 풍으로 변하게 됩니다.
그래서 스타일마다 γ 와 β 를 학습해서 스타일을 바꿔가면서 Data Augmentation 을 할 수 있습니다.
Mix - Style
Domain Generalization with MixStyle
이 방법은 내 스타일과 다른 스타일들을 섞어서 사용합니다.
그런데 섞는 것에 두 가지 방법이 있습니다.
1. 두 개의 데이터셋에 대해서 도메인을 서로 알 때 : 순서대로 섞음
2. 모를 때 : 랜덤하게 섞음.
그런데 섞을 때 Beta Distribution 을 사용합니다. 그래프 모양을 보고 '이게 왜 섞는거냐, 1 아니면 0아니냐' 라고 할 수도 있지만 이렇게 하는 이유가 있습니다. 저게 제일 잘 되기 때문입니다.
A Fourier - based Framework
A Fourier - based Framework for Domain Generalization
이미지가 있을 때 주파수 단위로 Convolution 을 하는 게 Fourier transform 인데, 이를 하게 되면 한 이미지가 Amplitude와 Phase 로 정의됩니다.
이때 Amplitude 는 Style 과 연관이 있고, Phase 는 Contents 와 연관이 있다는 것입니다.
Feature Augmentation
A Simple Feature Augmentation for Domain Generalization
만약 Decision Boundary 에서 Feature 를 Augmentation 하면, 얘네를 자르기 위해서 Classifier 가 다 떼어놓게 됩니다.
위 내용은 경희대학교 소프트웨어융합학과 황효석 교수님의 2023년 <심층신경망을 이용한 로봇 인지> 수업 내용을 요약한 것입니다.