우리는 Gaussian Splatting 장면에서 실시간 로봇 내비게이션을 수행하는 파이프라인인 Splat-Nav를 제안한다. Splat-Nav는 두 가지 구성 요소로 이루어진다: Splat-Plan — 안전성을 보장하는 경로 계획 모듈 Splat-Loc — 강인한 비전 기반 자세 추정 모듈 Splat-Plan은 수학적으로 엄밀한 충돌 제약 조건을 기반으로 지도 내에 안전성이 보장된(safe-by-construction) 폴리토프 회랑(polytope corridor)을 구축하고, 이 회랑 내부를 통과하는 베지어(Bézier) 곡선 궤적을 생성한다. Splat-Loc은 기체에 장착된 카메라의 RGB 영상만을 입력으로 받아 GSplat 장면이 본래 갖는 점구름(point-cloud) 표현을 활용하여 실시간 재귀적 상태 추정을 수행한다. 이 두 모듈이 결합되면 로봇은 목표 지점까지 부드러우면서도 안전한 궤적을 재귀적으로 재계획(re-plan)할 수 있다. 목표는 단순한 위치 좌표로 지정할 수도 있고, semantic GSplat을 활용해 언어 기반 명령으로 지정할 수도 있다. 광범위한 시뮬레이션 실험을 통해 우리는 기존 Point cloud 기반 기법보다 우수한 안전성을 확인했다. 또한 하드웨어 비행 실험에서 모션 캡쳐나 비주얼 오도메트리와 동등한 수준의 안전성과 속도를 달성함과 동시에, 기존 방법들과 달리 수동 프레임 정렬이 전혀 필요하지 않다는 장점을 확인했다. 우리의 시스템은 online replan을 2Hz이상, 그리고 자세 추정을 25Hz로 수행하는데, 이는 NeRF기반 내비게이션보다 약 한 자릿수 이상 빠른 속도로 실시간 내비게이션을 가능하게 한다.
Introduction
자율 로봇이 환경에서 안정적으로 동작하기 위해서는 정확한 localization, 목표 지점까지 안전한 경로 계획, 그리고 Closed-loop 기반 Trajectory tracking이 필수적이다. 전통적으로 이런 Planning, localization 문제는 occupancy grid, triangular mesh, point cloud, signed distance field와 같은 지도 표현을 기반으로 수행되어 왔다. 이런 방식들은 모두 명확한 기하 정보를 제공한다는 장점이 있다. 그러나 이런 explicit 장면 표현은 일반적으로 실시간 동작을 위해 해상도 제한이 존재하며, 이는 복잡한 환경에서 보다 세밀한 정보가 필요한 계획 및 위치 추정 문제에서 한계를 만든다. 최근 NeRF가 3D 장면을 implicit으로 표현하는 방식으로 각광받고 있다. NeRF는 MLP로 파라미터화된 volumetric density와 view-dependent color 필드를 통해 매우 사실적인 장면 복원을 생성한다. 이는 기존 명시적 표현의 근본적인 한계를 크게 개선한 방식이지만, 장면 렌더링을 위해 DNN 추론을 매번 수행해야 하므로, 로봇 경로 계획과 같은 실시간 시스템에는 적합하지 않다는 단점이 있다. 이보자 최근에는 GSplat이 NeRF의 대안으로 주목받고 있다. GSplat은 환경을 가우시안 Primitive로 표현하여, NeRF보다 더 높은 정밀도의 지도, 더 빠른 렌더링 속도, 그리고 비슷하거나 더 짧은 학습 시간을 제공한다. 무엇보다 로보틱스 관점에서 중요한 점은, NeRF와 달리 GSplat은 기하학적으로 일관된 Collision geometry를 제공한다는 점이다. 가우시안의 Level set을 활용하면 장면을 타원체 기반 기하 구조로 표현할 수 있고, 이는 해석 가능하고 구조적으로 의미있는 기하 프리미티브를 제공한다. 이런 특성은 안전하고, 강인하며, 실시간으로 동작하는 모션 플래닝 알고리즘 개발을 가능하게 한다.
본 논문에서는 monocular camera 만을 사용하여 GSplat 지도 상에서 드론 내비게이션을 수행하는 파이프라인인 Splat-Nav를 소개한다. Splat-Nav는 경량화된 Localization 모듈인 Splat-loc과 계획 모듈 Splat-Plan으로 구성되며, 이는 RGB 카메라 영상만으로 안전한 내비게이션을 가능하게 한다.
입력으로 RGB 프레임이 들어오면, Splat-Loc은 PnP(Perspective-n-Point) 기반 위치추정을 수행한다. 이 과정에서 GSplat 지도를 활용해 후보 자세에서 렌더링되는 RGB·깊이 값을 추정하고, 이를 바탕으로 드론의 자세를 산출한다. 이후 Splat-Plan은 Splat-Loc이 계산한 자세를 입력받아 초기 궤적을 생성한 뒤, GSplat 지도를 구성하는 타원체(ellipses)로부터 안전 비행 회랑을 구축하여 궤적을 최적화한다.
또한 제안한 시스템은 오픈 루프 궤적 생성뿐 아니라 Closed-loop replanning도 지원한다. 장거리 궤적에서는 기체 탑재형 위치추정이 노이즈나 드리프트를 겪을 수 있는데, 이 경우 Splat-Loc에서 얻은 위치추정치를 기존 위치추정 모듈과 융합하거나 보정 신호로 활용하여 더욱 안전한 방향으로 모션을 유도할 수 있다. 클로즈드 루프 재계획은 실행 중 목표 변경과 같은 동적인 플랜 업데이트도 가능하게 한다.
이 논문의 주요 기여는 다음과 같다.
- GSplat 지도에서 드론 내비게이션을 위해, 이론적으로 안전성이 보장되는(polytope-based) 회랑을 빠르게 생성하는 알고리즘을 개발하였다. 이를 통해 안전한 경로 계획을 실시간으로 수행할 수 있다. - GSplat 지도를 기반으로, 수동 프레임 정렬이 필요 없는 고속 카메라 위치추정 모듈을 개발하였다. 이를 통해 계획 모듈과 위치추정 모듈 간의 통합성과 상호작용을 강화하였다. - 124회에 걸친 실제 하드웨어 실험을 통해, open-vocab 기반 목표 지정과 함께 안전한 클로즈드 루프 재계획 능력을 실증하였다.
Related Work
Localization.
기존의 로봇 위치추정 연구는 주로 확장 칼만 필터(EKF), 입자 필터(PF), 그리고 이와 유사한 다양한 필터 기법들을 사용해 자세(pose) 추정 문제를 해결해 왔다. 이러한 방식들은 일반적으로 로봇의 온보드 센서(예: 카메라)로부터 수집된 고차원 관측(raw measurement)에서 저차원 특징을 추출하고, 이를 기반으로 로봇의 자세를 추정한다. 그러나 이 접근법은 고차원 관측이 본래 포함하고 있는 전체 정보량을 충분히 활용하지 못한다는 한계가 있다.
이를 보완하기 위해, 학습 기반 필터링 기법은 딥러닝을 활용해 원시 카메라 이미지로부터 직접 자세를 추정하는 end-to-end 위치추정 프레임워크를 개발하였다. 이러한 방식은 충분한 교육용 데이터가 주어지면 효과적일 수 있지만, 특정 로봇 플랫폼(동역학 모델)에 강하게 의존하므로 로봇이나 환경이 달라질 때마다 별도의 필터가 필요하다는 제약이 존재한다.
사전 학습된 NeRF 지도를 활용하여 온보드 카메라 + IMU를 가진 로봇의 자세를 추적하려는 연구도 존재한다. 이러한 방식들은 주어진 초기 자세 추정값으로부터 포토메트릭 손실(photometric loss)을 최소화하는 자세를 계산한다. iNeRF는 단일 이미지 기반으로 이를 수행하며, NeRF-Nav와 Loc-NeRF는 이미지 시퀀스를 사용해 궤적을 추적한다.
그러나 이런 방식들은 Gaussian Splatting 환경에서도 적용 가능하긴 하지만, 포토메트릭 손실 기반 최적화의 수렴 영역이 좁고, 그래디언트 계산을 위해 장면 표현을 여러 번 통과해야 하므로 계산 비용이 높다는 단점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Perspective-n-Point(PnP) 문제를 기반으로 한 새로운 위치추정 알고리즘을 제안한다.
최근에는 환경을 GSplat으로 표현하여 SLAM을 수행하는 연구도 등장하고 있다. 그러나 이들 SLAM 방식 역시 포토메트릭 손실을 기반으로 카메라 자세를 최적화하므로 앞서 언급한 문제를 그대로 가진다. 또한 이러한 GSplat-SLAM 연구들은 본 논문의 핵심 주제인 안전한 궤적 계획 및 제어(safe trajectory planning and control) 를 고려하지 않는다는 차이가 있다.
3D Gaussian Splatting
Background.
우리는 Mono 이미지 집합으로부터 Volumetric 장면 표현을 학습하는 Radiance field 기반 기법인 3DGS를 간단히 소개한다. GS는 장면 내 비어있지 않은 공간을 3D Gaussian primitive들의 집합으로 표현한다. 각 가우시안은 다음과 같은 매개변수로 정의한다. - 위치를 결정하는 평균 벡터 μ ∈ ℝ³ - 공간적 범위와 방향을 나타내는 공분산 행렬 Σ ∈ S₊₊ - 투명도를 결정하는 불투명도(opacity) α ∈ [0, 1] - 시점 의존적 색상을 표현하는 구면 고조파(SH) 계수
장면은 일반적으로 구조-기반-모션(Structure-from-Motion, SfM)을 통해 계산된 sparse point cloud을 기반으로 초기화된다. 특정 카메라 자세에서 이미지를 렌더링하기 위해, 3D 가우시안 프리미티브들은 투영 변환의 아핀 근사(affine approximation)를 사용해 이미지 평면으로 사상된다. 이때 2D 공분산은 다음과 같이 계산된다. 각 프리미티브의 계수들과 프리미티브 개수는 확률적 경사 하강법(SGD)을 통해 학습되며, 손실 함수는 NeRF와 동일하게
- 렌더링된 이미지와 실제 이미지 간의 포토메트릭 손실, - SSIM(Structural Similarity Index) 기반 손실을 함께 사용한다.
수치적 최적화를 보다 안정적으로 수행하기 위해, 각 가우시안의 비등방성(anisotropic) 3D 공분산은 다음과 같이 표현된다. 여기서 R∈SO(3)R \in SO(3)R∈SO(3)는 쿼터니언으로 파라미터화된 회전 행렬, SSS는 3D 벡터로 파라미터화된 대각 스케일링 행렬이다.
이러한 비등방성 공분산 표현과 적응적 밀도 제어(adaptive density control)—즉 가우시안의 분할(splitting)과 병합(merging)—을 통해, 복잡한 장면에서도 고품질의 컴팩트한 장면 표현을 생성할 수 있다. 이는 최신 점 기반(point-based) 렌더링 방법들이 가진 한계를 극복하는 중요한 특징이다.
또한 3D Gaussian Splatting은 NeRF에서 필수적인 volumetric ray marching을 필요로 하지 않으므로, 새로운 시점(novel view)에서도 고품질 실시간 렌더링이 가능하다.
Remark 1.
본 논문에서는 카메라의 시야체(view frustum)와 99% 신뢰구간(confidence interval) 이 교차하는 3D 가우시안만을 투영함으로써, 사실상 각 가우시안의 99% 신뢰 타원체(confidence ellipsoid) 내 영역만 장면 표현에 사용한다. 따라서 이러한 99% 타원체들의 합집합이 학습 과정에서 획득된 장면 기하 전체를 구성하게 된다.
하지만 우리는 이 절단 기준(cutoff)이 지나치게 보수적이라는 점을 확인하였다. 가우시안 분포의 꼬리(tail) 방향에서는 색상이 거의 투명에 가까워지기 때문이다. 반면, 1σ 충돌 기하(1σ-ellipsoid)로 구성한 장면은 GSplat의 깊이 채널과 매우 유사한 형태를 보였다. 이에 우리는 본 연구 전반에서 1σ 타원체를 충돌 기하로 사용하기로 한다. 향후 연구에서는 이 절단 기준의 적절한 보정(calibration)을 탐구할 예정이다.
Our Navigation Pipeline.
다음 섹션에서는 3D Gaussian Splatting을 기반 장면 표현으로 활용하여, 로봇을 위한 효율적인 내비게이션 파이프라인을 어떻게 구성하는지 핵심 아이디어를 제시한다.
GSplat의 장점은 다음과 같다.
단순한 볼록 프리미티브(convex primitives) 를 매우 빠르게 추출할 수 있으며, 이 프리미티브들의 합집합은 실제 장면 기하를 매우 잘 근사한다. 이는 Splat-Plan에서 안전성(safety) 과 해 품질(solution quality) 에 대한 보장을 가능하게 하고, GSplat 환경에서 낮은 sim-to-real 갭으로 실시간 내비게이션을 수행하게 한다.
또한 GSplat은 임의 시점(arbitrary viewpoint) 에서의 고품질 RGB 및 깊이(depth) 렌더링이 매우 빠르기 때문에, Splat-Loc에서 빠르고 강인한 카메라 위치추정을 가능하게 한다.
Planning with Safe Polytopes
이제 우리는 GSplat 지도를 위한 계획 모듈인 Splat-Plan을 소개한다. Splat-Plan은 초기 구성(initial configuration)에서 목표 구성(goal configuration)에 이르는 GSplat 지도 내 자유공간을 표현하기 위해, [13]에서 영감을 얻은 안전한 다면체(polytopic) 회랑(corridor)을 생성한다. 이러한 회랑과 그 내부를 통과하는 궤적은 타원체(ellipsoids) 간의 교차 판정(intersection test)에 기반한 이론적 근거 위에 엄밀하게 구성된다.
이 방법은 실시간으로 동작할 만큼 충분히 빠르며, 사전 학습된 GSplat 표현이 있는 모든 장면에 대해 안전성을 보장하고, 지나치게 보수적이지 않다는 특징을 가진다. 물론 모든 지도 기반 안전보장 기법과 동일하게, 최종적인 안전성은 지도의 완전성(completeness)에 달려 있다. 지도가 장애물의 존재를 반영하지 못하면, 우리는 존재 자체를 인지하지 못한 장애물과 충돌할 수밖에 없다. 실제로는 하드웨어 실험을 통해 GSplat 지도가 근본적인 실제 기하를 빠르고 효율적으로 잘 표현한다는 점을 확인하였다.
우리는 또한 GSplat의 전체 충돌 기하(full collision geometry) 를 사용하는 것이 RGB 기반 환경에서의 기존 표현(예: 포인트 클라우드)보다 계획 관점에서 더 적합함을 강조하고자 한다. 관례적으로 GSplat의 평균(mean) 위치만을 추출해 포인트 클라우드를 생성할 수 있다. 그러나 특징이 적은(feature-less) 영역에서는 포인트 클라우드가 매우 희소(sparse) 해진다는 문제가 있다. 반면 GSplat의 전체 타원체 충돌 기하는 표면 전체를 연속적으로 덮는다.
이 현상은 Fig. 1에서 확인할 수 있다. 타원체 기반 충돌 기하를 렌더링한 결과는 GSplat의 RGB 렌더링과 매우 유사하지만, 평균점만 추출한 포인트 클라우드는 매우 희소하여, 이러한 표현을 기반으로 안전 궤적을 계획하면 sim-to-real 갭이 크게 증가한다. 가우시안 프리미티브 표면을 샘플링해 포인트 클라우드를 보완할 수도 있으나, 이러한 수정이 있더라도 포인트 클라우드 기반 플래너는 Splat-Plan만큼 강인하지 못하다(Section VI).
본격적인 Planning 문제를 설명하기 전에, 본 연구에서 고려하는 로봇 R과 지도 G의 표현에 대해 다음과 같은 가정을 둔다. 우리는 로봇이 비어있지 않은 집합에 속한 타원체들의 합집합으로 표현된다고 가정한다. 단순화를 위해, 우리는 로봇이 하나의 타원체로 구성된 경우만을 고려한다. 그러나 이후 설명은 각 로봇 타원체에 대해 충돌 검사를 수행하는 방식으로 멀티-타원체(multi-ellipsoid) 로봇에도 동일하게 적용된다. 로봇의 메쉬나 포인트 클라우드가 주어진 경우에는 최소 경계 타원체(minimal bounding ellipsoid) 또는 구(sphere)를 통해 로봇을 타원체로 근사할 수 있다.
우리는 Remark 1에서 논의한 바와 같이, GSplat 지도로부터 얻은 γ% 신뢰 타원체(confidence ellipsoid)를 사용하여 환경에서 비어 있지 않은(non-empty) 공간을 표현한다. 이는 다음과 같이 정의된다. Remark 2 (Online Gaussian Splatting).
우리의 계획 알고리즘은 GSplat 지도가 필요하다. 이 지도는 최근 활발히 연구되고 있는 실시간 방사 필드 SLAM 기법들을 통해 온라인으로 학습될 수도 있지만, 본 논문에서는 범위를 좁혀 사전 학습된(pre-trained) 지도에서만 계획을 수행한다.
GSplat 지도의 품질이나 지역별 불확실성에 따라, 학습 시 사용된 것과 다른 값의 γ를 사용할 수 있다. - γ를 크게 하면 각 가우시안의 타원체 부피가 증가하여 더 큰 안전 여유(safety margin)와 보수적 계획이 가능해진다. - 반대로 γ가 작아지면 타원체가 작아져 계획이 덜 보수적이 된다.
본 논문에서는 단순화를 위해 γ의 값을 전체 타원체에 대해 동일하게 설정했으나, 타원체마다 서로 다른 γ를 사용하면 지역별 불확실성을 반영할 수 있다. 또한 로봇을 나타내는 타원체 역시 로봇 자세의 불확실성을 고려해 부피를 확대하거나 축소할 수 있다.
Remark 4 (Dynamic Scenes).
본 논문에서는 정적(static) 환경에서의 계획만을 논의한다. 하지만 만약 동적 Gaussian Splatting 장면 표현이 가능하다면, 우리의 방법은 동적 환경 planning에도 자연스럽게 적용될 수 있다. 동적 장면에서의 확장 가능성은 Section VIII에서 추가로 논의한다.
문제 정의 (Problem Statement)
로봇을 나타내는 경계 타원체 Er과 지도 G가 주어졌을 때, 우리는 로봇이 초기 구성에서 목표 구성으로 이동하는 부드럽고 실행 가능한 경로를 찾고자 한다.
Collision Detection
우리는 로봇과 환경이 모두 타원체로 표현된다는 점을 활용하여, [45]에 기반한 효율적인 충돌 검사 알고리즘을 사용한다. 이 방법은 GPU 병렬화에 매우 적합해 높은 계산 효율을 얻을 수 있다. 다른 타원체-타원체 교차 판정 기법도 존재하지만, 우리는 GPU 기반 대규모 병렬 처리에 가장 적합한 [45]를 채택한다. 또한 GJK 알고리즘 [46]은 두 타원체 간 거리(distance)를 구해야 할 때 유용하지만, 우리는 최소한의 충돌 여부만 판단하면 되므로 사용하지 않는다.
Monocular Pose Estimation
본 섹션에서는 GSplat 기반 환경 표현 내에서 로봇의 위치를 추정하기 위한 자세 추정 모듈 Splat-loc을 제시한다. 이는 Splat-Nav 파이프라인 전체의 핵심 요소로, Splat-plan의 안전성 보장은 로봇이 GSplat 지도 상에서 일관되고 정확한 자세 추정을 수행할 수 있을 때만 성립하기 때문이다. SE3 공간의 자세는 회전 행렬 R (SO3)와 Translation vector로 매개변수화되며,
Homogeneous transform은 다음과 같이 나타낸다. 또한, 내비게이션 중인 로봇이 독립적인 자세 추정 시스템(VIO, 외부 모션캡쳐 등)을 가지고 있는 경우, 해당 시스템에서 출력되는 자세를 Splat-Loc 최적화 절차의 초기값(initialization)으로 활용하고, Splat-Loc의 추정치를 통해 이러한 자세를 보정(correction)할 수 있도록 하고자 한다. 우리는 카메라 Calibration 정보를 알고 있다고 가정한다.
Splat-Loc의 핵심은 GSplat의 고속 렌더링 기능과 표준 카메라 트래킹 기법을 활용하여 Perspective-n-Point(PnP)문제를 구성하고, 최적화기를 통해 안정적으로 해를 구하는 방식이다. 자세 추정 과정의 입력으로는 현재 시점의 컬러 이미지, 초기 자세 추정값이 필요하다. 이 초기값은 독립적인 위치 추정 모듈에서 가져오거나, 이전 시점의 자세 추정값을 사용할 수도 있다. 먼저 GSplat 지도를 사용해 카메라 자세를 초기 추정값으로 설정한 상태에서 RGB 이미지를 렌더링한다. 동시에 해당 시점의 카메라 시야 범위 내에서 로컬 포인트 클라우드를 생성하는데, 이는 사실상 GSplat을 monocular depth estimator로 활용하는 과정이다.
다음 단계에서는 local feature extractor를 사용해 카메라 이미지와 렌더링된 이미지 모두에서 시각적 특징(keypoint와 descriptor)을 계산한다. 각 키포인트는 픽셀 좌표를 가지며, 카메라 이미지에서의 키포인트 개수를 m, 렌더링 이미지에서의 키포인트 개수를 n이라고 하자. 이후 feature matching을 통해 두 이미지 간의 시각적 특징 대응 관계를 찾는다.
렌더링된 깊이 이미지와 camera intrinsic을 사용하면 렌더링된 컬러 이미지의 키포인트를 3D 공간으로 투영하여 포인트 클라우드를 생성할 수 있다. j번째 투영된 키포인트의 3D 위치를
이라고 하자. 이제 우리는 초기 자세를 실제 자세에 가깝게 맞추기 위해, 다음의 reprojection error 최소화 문제를 푼다.
여기서
는 카메라 이미지에서의 k번째 매칭된 키포인트의 픽셀 좌표이며, K는 camera intrinsic 이다.
이는 전형적인 Perspective-n-Point(PnP) 문제이며, 비선형 최소제곱 최적화 문제로 분류된다. 우리는 이를 Levenberg–Marquardt 알고리즘으로 해결한다.
Global Initialization
위에서 설명한 자세 추정 절차는 카메라 이미지와 렌더링 이미지 사이의 충분한 Overlap이 존재해야 하며, 이를 위해서는 로봇 자세에 대한 상당히 정확한 초기 추정값이 필요하다. 그러나 실제 환경에서는 이런 초기값을 얻기 어려운 경우가 많다. 초기 자세 추정이 충분히 정확하지 않은 상황에서는 global pose estimation 절차를 먼저 수행한다. 이 절차는 최초 한 번만 수행하면 되고, 그 이후에는 이전 단계에서 얻은 추정값을 다음 단계의 초기값으로 사용하면 된다.
한 가지 접근은 monocular depth estimator를 사용해 RGB 이미지에 깊이 정보를 보강하고, 이를 통해 카메라 좌표계의 포인트 클라우드를 만드는 방식이다. 또 다른 SE3 공간을 무작위로 샘플링하여 여러 초기 자세 후보를 생성한 뒤, reprojection error가 가장 낮은 초기화를 선택하는 것이다. 그러나 본 연구에는 다른 접근을 사용한다. GSplat의 평균값들로부터 장면의 포인트 클라우드를 생성한 후, 이를 기반으로 포인트 클라우드 정합 문제를 구성한다.
여기서 C는 (지도 포인트 p, 카메라 포인트 q) 쌍으로 이루어진 correspondences을 의미한다.
실제로는 두 포인트 클라우드 간의 대응점 집합 C을 사전에 알고 있는 경우가 거의 없다. 이를 해결하기 위해 우리는 특징 기반 포인트 클라우드 정합 기법을 활용한다. 먼저 각 포인트의 local geometric properties를 표현하기 위해 33차원 FPFH descriptor를 계산한다.
기존 연구는 포인트 클라우드 정합 과정에서 Visual attribute가 수렴 속도를 향상시키는 데 중요한 역할을 한다는 점을 강조해 왔다. 그러나 FPFH는 색상 정보를 포함하지 않는다. 이를 보완하기 위해, 각 포인트의 RGB 색상을 FPFH descriptor에 augmentation하여 확장된 특징 벡터를 구성한다.
이후, 확장된 FPFH 디스크립터 기반의 최근접 이웃 검색(nearest-neighbor query)으로 잠재적인 대응점 후보들을 찾고, RANSAC을 사용해 대응점 집합 CCC에서 이상치를 반복적으로 제거한다. RANSAC의 종료 기준은 정합된 포인트 클라우드 간의 거리와, 대응점들로 정의된 에지(edge) 쌍의 길이에 기반한다.
비침습적(non-invasive) 자세 보정 (Pose Correction)
Splat-Loc의 자세 추정치를 VIO와 같은 기존 자세 추정 모듈과 완전히 융합(fusion)하는 것은 본 논문의 범위를 벗어나지만, GSplat 기반 Splat-Plan을 사용해 고수준 경로 계획을 수행하면서 기존 위치추정(예: VIO)을 이용해 로봇을 안정화(control)하는 상황에서는 여러 문제가 발생한다.
근본적으로 GSplat이 학습된 좌표계와 기존 위치추정 모듈의 실행 좌표계는 시간에 따라 달라질 수 있다. 이는 노이즈나 드리프트로 인해 발생한다. 반면 Splat-Loc은 GSplat 좌표계와 직결된 추정치를 제공하므로, 로봇이 충돌 근처에 있는지 여부를 더 정확하게 표현할 수 있다.
이러한 Splat-Loc 추정치는 필요한 경우 Splat-Plan에 전달되어 더 안전한 궤적을 생성하도록 할 수 있다. 그러나 Splat-Plan이 반환하는 궤적은 GSplat 좌표계에 존재하며, 실제 제어는 기존 위치 추정 모듈의 좌표계에서 수행되므로 좌표계 불일치 문제가 발생한다. 이를 해결하기 위해, Splat-Plan의 출력은 반드시 제어기 좌표계로 변환되어야 한다.
Experimental Results
우리는 GSplat 지도를 활용한 내비게이션 파이프라인의 효용성을 실제 환경과 시뮬레이션 환경에서 평가했다.