본 논문에서는 FiLM(Feature-wise Linear Modulation, 특성별 선형 조절)이라고 불리는 신경망을 위한 general-purpose conditioning method를 소개한다. FiLM 레이어는 조건부 정보에 기반한 간단한 Feature-wise affine transform을 통해 신경망 계산에 영향을 미친다. 우리는 FiLM 레이어가 시각적 추론(다단계의 고수준 처리가 필요한 이미지 관련 질문에 대답하는 작업)에 매우 효과적임을 보여준다. 이는 명시적으로 추론을 모델링하지 않는 표준 딥러닝 방법으로는 어려운 작업이었다.
구체적으로, Visual reasoning task에서 FiLM 레이어는 1) CLEVR 벤치마크에서 sota 오류율을 절반으로 줄이고, 2) 특성을 일관된 방식으로 조절하며, 3) 구조 변형이나 일부 제거에도 강건하고, 4) 적은 예시나 심지어 제로샷에서도 새로운 데이터에 잘 일반화됨을 보여준다.
Introduction
일상적인 시각 입력에 대해서 추론하는 능력은 인간 지능의 기본 구성 요소이다. 어떤 연구자들은 artificial agent가 이런 복잡하고 구조화된 과정을 학습하기 위해서는 comsitionality나 relation computation과 같은 추론 측면을 모델에 내장해야 한다고 주장한다. 그러나 범용 구성 요소로 만들어진 모델이 시각적 추론을 학습할 수 있다면, 그런 아키텍쳐는 다양한 도메인에 더 광범위하게 적용될 가능성이 높다. (If a model made from general-purpose components could learn to visually reason, ....)
이런 범용 아키텍쳐가 존재하는지 이해하기 위해, 우리는 최근 제안된 CLEVR 데이터셋을 활용한다. 이 데이터셋은 질문 응답을 통해 시각적 추론을 테스트한다.
그렇지만 CLEVR에 대한 테스트는 이런 일반적인 딥러닝 접근법들이 구조화된 다단계 추론을 학습하는 데에는 어려움을 겪는다는 것을 보여준다. 특히, 이런 방법들은 데이터의 편향을 활용하는 경향이 있으며, 추론 배후의 복잡한 기본 구조를 포착하지 못한다.
이 연구에서, 우리는 FiLM이라고 소개하는 방법을 통해 일반적인 모델 아키텍쳐가 강력한 시각적 추론을 달성할 수 있음을 보여준다. FiLM 레이어는 임의의 입력에 조건화된 신경망의 중간 특성에 대해 특성별 Affine 변환을 수행한다. 시각적 추론의 경우, FiLM 레이어는 입력 질문에 대한 RNN이 이미지에 대한 CNN 계산에 영향을 미칠 수 있게 한다. 이 과정은 입력 질문의 함수로서 CNN의 동작을 적응적이고 근본적으로 변경하여, 전체 모델이 counting 부터 comparing까지 다양한 추론 작업을 수행할 수 있게 한다.
FiLM은 이미지 스타일화, 음성 인식, 시각적 질문 응답 등에서 매우 성공적인 조건부 정규화의 일반화로 볼 수 있으며, 이는 FiLM의 광범위한 적용 가능성을 보여준다.
2. Method
2.1 Feature-wise Linear Modulation
FiLM은 입력에 기반하여 신경망의 중간 Feature에 Affine 변환을 적용함으로써 신경망의 출력에 adaptive하게 영향을 미치는 방법을 학습한다. FiLM은 입력 xi의 함수로 γi,c와 βi,c를 출력하는 함수 f와 h를 학습한다:
γi,c = fc(xi) βi,c = hc(xi), (1)
여기서 γi,c와 βi,c는 특성별 Affine 변환을 통해 신경망의 활성화 Fi,c를 조절한다. 아래첨자는 i번째 입력의 c번째 특성 또는 특성 맵을 나타낸다.
f와 h는 신경망과 같은 임의의 함수가 될 수 있다.
Fi,c는 원래 특성 맵(신경망의 중간 층에서 추출된 특성)이다.
γi,c는 곱해지는 스케일링 파라미터(배수)이다.
βi,c는 더해지는 이동(편향) 파라미터이다.
따라서 이런 변환은,Feature map의 값을 스케일링하거나 activation 임계값을 조정하게 되고, 질문이나 조건에 따라 파라미터(γ, β)가 동적으로 생성된다. 즉, 질문에 따라 신경망이 이미지의 특성 맵을 다르게 처리하도록 조절하는 것이다.
CNN의 경우, f와 h는 공간적 위치에 상관없이 xi에 기반하여 activation의 feature map 별 분포를 조정한다.
우리는 이 단일 함수를 FiLM 생성기라고 부르고, FiLM 레이어가 적용되는 네트워크를 특성별 선형 조절 네트워크, 즉 FiLM-ed 네트워크라고 부른다.
FiLM 레이어는 FiLM 생성기가 대상 FiLM-ed 네트워크의 특성 맵을 확대하거나 축소하고, 부정하고, 차단하고, 선택적으로 임계값을 설정하고(ReLU가 뒤따를 경우) 등의 방식으로 조작할 수 있게 한다. 각 특성 맵은 독립적으로 조건화되어, FiLM 생성기가 각 FiLM 레이어에서 활성화에 대해 적당히 세밀한 제어를 할 수 있게 한다.
FiLM은 조절되는 특성 맵당 단 두 개의 매개변수만 필요로 하기 때문에, 확장 가능하고 계산적으로 효율적인 조건화 방법이라고 할 수 있다. 특히, FiLM의 계산 비용은 이미지 해상도에 따라 증가하지 않는다.
2.2 Model
우리의 FiLM 모델은 그림 3에 묘사된 것처럼 FiLM 생성 언어 파이프라인과 FiLM-ed 파이프라인으로 구성된다. FiLM 생성기는 학습된 200차원 단어 임베딩을 입력으로 받는 4096 hidden 유닛을 가진 GRU 네트워크를 사용하여 질문 xi를 처리한다. 최종 GRU 은닉 상태는 질문 임베딩이며, 이로부터 모델은 각 n번째 residual block에 대한 (γi,n, βi,n)을 Affine projection을 통해 예측한다.
시각 파이프라인은 처음부터 학습된 CNN 또는 학습된 3x3 Convolutional layer를 가진 fixed pretrained feature extractor를 사용하여 224x224 이미지 입력에서 128개의 14x14 이미지 feature map을 추출한다.
각 FiLM-ed ResBlock은 그림 3에 묘사된 아키텍처처럼 1×1 합성곱 다음에 3×3 합성곱으로 시작한다.
3. Related Work
FiLM은 Conditional Normalization의 일반화라고 볼 수 있다. CN은 원래 도입된 정규화 레이어에서 일반적인 특성별 Affine 변환의 매개변수를, Conditionning information의 learned function으로 대체한다.
다양한 형태의 CN은 여러 영역에서 매우 효과적임이 입증되었다. 우리는 feature-wise affine conditioning이 다단계 추론에 효과적이며 그러한 효과 뒤에 있는 매커니즘을 이해하고자 한다. 특히, CN에 대한 이전 연구에서 그는 Affine 변환이 반드시 정규화 직후에 배치되어야 하는지에 대해 검토하지는 않고 있다. 우리는 FiLM과 정규화 사이의 연결을 조사하여, Affine 변환이 꼭 정규화 직후에 발생할 필요는 없다는 것을 발견했다.
CN을 넘어서, FiLM과 다른 조건부 방법들 사이에는 많은 연결점이 있다. 예를 들어, Conditional DCGAN에서 사용되는 일반적인 접근법은 Conditioning information의 constant feature map을 Convolutional layer의 입력과 연결하는 것이다. 이 방법은 단순히 특성의 조건부 bias를 야기한다.
따라서 FiLM을 기존 모델에 부착한다는 것은, 모델이 조건부 입력(Conditional input)에 기반해 Feature map을 동적으로 조절할 수 있게 한다는 것이다. 예를 들어 일반 CNN 모델이 단순하게 이미지 분류만 할 수 있었다면, FiLM을 추가함으로써 질문에 따라 이미지의 다른 측면에 집중할 수 있게 한다.
FiLM과 다른 조건부 방법들 사이에는 많은 연결점들이 있다. 예를 들어 Conditional DCGAN에서 사용되는 일반적인 접근법은 조건부 정보의 Constant feature map을 CNN 레이어의 입력과 연결하는 것이다. Parameter efficient하지는 않지만, 이런 방법은 단순히 feature-wise conditional bias를 야기한다. ... 다른 방법들은 별도의 조건부 입력이 아닌, 동일한 입력의 함수로 입력의 특성을 게이트한다. 이런 방법에는 시퀀스 모델링을 위한 LSTM, 기계 번역을 위한 CNN Seq-to-Seq, SENet이 포함된다. 이 접근법은 0과 1사이로 제한된 특성별 조건부 스케일링으로 볼 수 있는 반면, FiLM은 제한되지 않은 스케일링과 이동 모두로 구성된다.
FiLM과 다른 방법들 사이에는 더 넓은 연결고리가 있다. 예를 들어, FiLM은 한 네트워크를 사용하여 다른 네트워크의 매개변수를 생성하는 것으로 볼 수 있어, 하이퍼네트워크의 한 형태이다. ...
Experiments
4.2 What Do FiLM Layers Learn?
FiLM이 어떻게 시각적 추론을 수행하는지 이해하기 위해, 우리는 FiLM 레이어의 최종 결과를 관찰하기 위해 활성화를 시각화했다.
또한 학습된 FiLM γ와 β 매개변수 자체에서 패턴을 찾기 위해 히스토그램과 t-SNE를 시각화했다.
그림 4는 모델의 최종 분류기의 MLP가 답변을 예측하는 데 사용하는 전역적으로 풀링된 특성에 기여하는 위치의 분포를 시각화한다. 이 이미지는 FiLM 모델이 답변, 혹은 질문 관련 객체 근처 영역의 특성을 사용해 예측한다는 것을 보여준다. 이 발견은, '적절한 특성 조절'이 간접적으로 '공간적 조절'로 이어진다는 것을 강조한다. 질문과 관련된 특성을 가진 영역은 큰 활성화를 가지는 반면, 다른 영역은 그렇지 않기 때문이다.
그림 4는 또한 FiLM-ed 네트워크가 파이프라인 전체에 걸쳐 추론을 수행한다는 것을 시사한다.