새소식

논문 리뷰

Place Recognition 을 위한 데이터셋 : Single-View Place Recognition under Seasonal Changes

  • -

Single-View Place Recognition under Seasonal Changes

Daniel Olid, Jose ́ M. Fa ́cil and Javier Civera, Workshop at IROS 2018

 

논문 선정 배경

Place Recognition 관련 프로젝트를 진행하던 중, 계절 변화에 상관없는 VPR 모델을 연구하기 위해 이 논문을 읽게 되었습니다. 

Abstract

Single - view place recognition 은 주어진 쿼리 이미지와 동일한 장소에 해당하는 이미지를 찾는 것으로 정의할 수 있습니다. 이는 자율주행 탐색 및 매핑을 위한 핵심 기능입니다. 
이 주제에 대한 많은 연구가 있었지만, 높은 수준의 이미지 가변성 (시점, 조명 등) 등 해결해야 할 부분이 아직 많이 남아있습니다. 이 작업에서 우리가 다루는 특별한 과제 중 하나는 날씨의 변화입니다. 계절적 변화로 인해 외관이 크게 변경될 수 있으며, 이로 인해 기존의 low-level 에서는 제대로 모델링할 수 없습니다. 
본 논문에서 우리의 contribution 은 다음과 같습니다. 우리는 우선 장소 인식 연구에 자주 사용되는 Nordland 데이터셋에 대한 partition 을 사전 처리하고 제안합니다. 그리고 이 문제에 대한 다양한 신경망 아키텍쳐를 평가했습니다. 

 

Introduction

Visual Place Recognition 은 쿼리 이미지를 가지고 동일한 장소에 해당하는 다른 이미지를 데이터베이스에서 검색하는 것입니다. 
Robotics 에서 Place Recognition 은 여러 가지 해결해야 할 문제가 있습니다. 예를 들어, 대부분의 장소 데이터베이스는 거대하고 검색 시간은 로봇의 실시간 작동으로 인해 제한됩니다. 
본 논문에서 다룰 또 다른 과제는 장소의 시각적 외관의 가변성입니다. 이런 변형에는 시점, 조명 변경 등 다양한 원인이 있을 수 있습니다. 
정적 장면의 경우, 이미지 그라데이션을 기반으로 하는 SIFT, SURF 및 ORB 등이 성공적이었습니다. 
그러나 Hand-crafted low-level feature 를 기반으로 하는 고전적인 접근 방식은 동적 장면 변화를 표현하는 데 한계가 있습니다. 가장 최근의 접근 방식은 이미지 패턴을 학습할 가능성이 더 높은 CNN 을 사용합니다. 이 연구에서 우리는 계절 변화를 특별한 경우에 장소 인식을 위해 CNN 을 사용하는 방법을 탐구합니다. 우리의 구체적인 Contribution 은 다음과 같습니다. 
1. 우리는 CNN 을 기반으로 날씨에 관계없이 장소를 인식하는 방법을 훈련했습니다. 우리는 CNN 을 사용하여 유클리드 거리를 사용하여 이미지 Descriptor 를 추출합니다. 
2. 우리는 Nordland 비디오에서 추출한 이미지를 사용해 데이터셋을 평가했습니다. 
3. Nordland 데이터셋의 결과를 다른 최신 기술과 비교했습니다. 우리의 방법은 80km 의 입력 위치 중 98% 를 정확하게 인식할 수 있으며, 여름과 겨울 사이에 발생하는 급격한 외관 변화에서는 86% 를 정확하게 인식할 수 있습니다. 

 

Related Works

The Nordland Dataset : Pre-processing and partitions

본 논문에서는 Nordland railroad video 를 사용했습니다. 2012년 노르웨이 방송사는 Trondheim 과 Bod 도시를 잇는 철도 노선인 Nordland Railway 에 관한 다큐멘터리를 제작했습니다. 그들은 겨울, 봄, 가을, 여름에 기차 앞부분에 카메라를 두고 729km 의 여정을 촬영했습니다. 각 비디오의 길이는 약 10시간이며 각 프레임에는 GPS 좌표가 포함된 타임스탬프가 표시됩니다. 

A. 데이터 전처리

데이터셋을 만드는 첫 번째 단계는 각 비디오에서 최대 개수의 이미지를 추출하는 것이었습니다. 또한 GPS 데이터 손상이 수정되었으며 터널과 Station 도 제거되었습니다. 이러한 단계를 거쳐 초당 하나의 프레임을 캡쳐해 비디오당 28,865 개의 이미지를 얻었습니다.

B. 데이터셋 Partition

그림 3은 Nordland 데이터셋에 설정된 전체 이미지의 파티션을 보여줍니다. 우리는 1,150 개의 이미지 (총 3,450개, 그림에서 노란색) 의 세 가지 다른 시퀀스로 Testset 을 만들었습니다. 나머지 이미지는 Trainset 에 사용되었습니다. (24,569, 그림에서 빨간색). 
여러 섹션을 사용하면 Testset 에 포함된 장소의 다양성과 모양 변화가 늘어납니다. 또한 테스트 데이터와 학습 데이터 간의 차이를 보장하기 위해 일부 이미지를 삭제해 각 테스트 섹션과 학습 섹션 사이에 몇 킬로미터의 간격을 두었습니다. 

C. Place labels

연속된 이미지 간의 유사성을 고려해, 본 논문에서는 두 이미지가 시간적으로 3개 이하의 이미지로 분리된 경우 동일한 위치에 있는 것으로 간주할 것을 제안합니다. 


 

Neural Network Architecture

그림 5는 제안된 Place Recognition 방법의 기능 다이어그램을 보여줍니다. 
우리의 목표는 모양 변화가 있는 경우에도 동일한 장소의 이미지에서 추출된 것과 가까운 Feature 벡터를 추출하도록 네트워크를 훈련시키는 것이었습니다. 유사성을 측정하는 기준은 유클리드 거리입니다. 

우리는 신경망을 사용하는 세 가지 방법을 연구했습니다. 
우선, pretrained 네트워크에서 추출된 특징의 성능을 평가했습니다. 그런 다음 장소 인식 문제를 위해 Siames 및 Triplet 아키텍쳐를 훈련시켰습니다. 

A. Pretrained Network

본 연구에서는 Imagenet 에서 훈련된 인기있는 VGG-16 모델의 일부 레이어에서 추출된 특징을 분석했습니다. 또한 장소 데이터셋에서 장면 인식을 위해 훈련된 동일한 아키텍쳐의 성능도 평가했습니다. 이 논문의 나머지 부분에서는 추출된 특징 벡터를 통해 Non-linear activation 후 선택된 레이어의 신경망 출력을 참조합니다. Convolution layer 의 경우 출력 텐서를 flatten 했습니다. 

B. Siamese network

Siamese 네트워크는 장소 인식을 위해 사전 훈련된 descriptor 의 robustness 를 향상시킬 수 있습니다. 우리는 Siamese 아키텍쳐를 활용하기 위해 VGG-16 모델을 수정하고 pretrain 실험에서 가장 좋은 성능을 보인 레이어 뒤에 새로운 Fully-connected layer 를 추가했습니다. 
훈련은 834,746 개의 positive pair (다른 모양을 가진 동일한 장소의 두 이미지) 와 834,746 개의 negative pair (다른 장소의 두 이미지) 를 사용하여 5개의 epoch 동안 수행되었습니다. 
이때 Contrastive loss 를 사용했습니다. 

C. Triplet network

Triplet 네트워크는 positive 및 negative pair 를 동시에 훈련하여 Siamese 아키텍쳐의 결과를 향상시킵니다. 같은 장소의 descriptor 를 더 가깝게 이동하고 같은 순간에 다른 장소의 descriptor 를 분리하면 보다 안정적이고 효율적인 학습 과정이 가능해집니다. 

 

Experimental Results

 

모델을 평가하기 위해 한 계절의 이미지를 참조로 사용하고 다른 계절의 이미지를 쿼리로 사용했습니다. 각 이미지는 신경망에 의해 처리되어 Feature vector 를 생성합니다. 추출 후 각 Feature vector 를 모든 기준 계절의 모든 Feature vector 와 비교하여 가장 가까운 것을 알고리즘이 예측하는 장소로 간주합니다. 이 과정을 3,450 개의 테스트 이미지 각각에 대해 반복합니다. 
가장 가까운 장소가 올바른 장소인 횟수는 우리가 사용한 metric 인 FC 로 평가합니다. 

FC = (정확한 장소 예측 수) / (평가된 장소 수)

가장 가까운 특징 벡터가 5프레임의 창 내의 위치에 해당하면 일치가 올바른 것으로 간주된다는 점에 유의해야 합니다. 특징 벡터 사이의 거리는 결과의 신뢰도를 측정하며, 임계값을 적용해 Precision-Recall 곡선을 얻을 수 있습니다. 

A. Pre-trained

 

그림 8은 원래 VGG-16 pretrained 모델에서 얻은 결과를 보여줍니다. 연구된 모든 레이어 중에서 네 번째 풀링 레이어에서 추출된 기능이 가장 일치 비율이 높다는 것을 발견했습니다. 

B. Siamese and Triplets
여러 실험을 통해 우리는 128 크기의 Descriptor 가 Place recognition 에 대해 충분히 식별력이 있다는 것을 확인했습니다. 레이어 크기를 늘리면 정확도가 크게 향상되지 않으면서 계산 비용이 증가합니다. 
그림 10은 pretrain 된 Siamese 및 Triplet 아키텍쳐를 사용해 얻은 결과를 비교합니다. Pretrained 네트워크는 여름 이미지가 참조로 사용된 일부 조합에서만 Siamese 아키텍쳐보다 성능이 뛰어났지만, Siamese Feature vector 의 차원은 128 이고 Pretrained Feature vector 의 차원은 100,352 개라는 점에 유의해야 합니다. 

반면 Triplet 네트워크는 연구된 모든 조합에서 Siamese 및 Pretrained 모델보다 성능이 뛰어났습니다. 

Conclusion

본 논문에서 우리는 기상 조건으로 인한 외관 변화에 Robust 한 Place Recognition 방법을 구현했습니다. 우리의 실험은 Siamese 신경망과 Triplet 신경망이 모양 변화에 대해서 robust 한 Feature 를 학습한다는 것을 보여줍니다. Triplet 신경망은 Siamese 신경망보다 더 나은 결과를 얻었습니다. 
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.