디퓨젼 모델 기반 접근법은 데이터 기반 계획에서 가능성을 보여 주었지만, 안전 보장이 없기 때문에 안전이 중요한 응용 분야에 적용하기 어렵다. 이런 문제를 해결하기 위해 우리는 Control Barrier Function 클래스를 사용하여 디퓨젼 확률 모델이 specification을 만족하도록 보장하는 SafeDiffuer라는 새로운 방법을 제안한다. 접근법의 핵심 아이디어는 제안한 Finite-time diffusion invariance를 디노이징 디퓨젼 절차에 삽입하는 것으로, 이는 신뢰할 수 있는 디퓨젼 데이터 생성을 가능하게 한다. 또한 생성 모델을 통한 우리의 유한 시간 디퓨젼 불변성 방법이 일반화 성능을 유지할 뿐만 아니라 안전한 데이터 생성에 있어서 강건성을 만들어낸다는 것을 보여준다. 우리는 미로 경로 생성, 다리가 있는 로봇 이동, 3D 공간 조작을 포함한 일련의 안전한 계획 작업에서 우리의 방법을 테스트했으며 결과는 기본 디퓨젼 모델에 비해 robustness와 Guarantee에 관점에서 더 낫다는 것을 보여준다.
Introduction
데이터 기반 접근법은 표현의 유연성 덕분에 점점 더 많은 관심을 받고 있다. 디퓨젼 모델은 주로 이미지 생성에 응용되는 데이터 기반 생성 모델이다. 최근에는 디퓨져가 다양한 로봇 작업을 위한 Planning에 사용되었다. 디퓨져는 새로운 환경에서도 잘 일반화되는 유연한 행동 합성을 가능하게 한다. 추론 과정에서 디퓨져는 현재 상태와 목표에 따라 가우시안 노이즈에서 시작하여 깨끗한 계획 궤적을 생성하고, 이를 기반으로 제어 정책을 얻는다. 이 제어 정책을 한 단계 앞으로 적용한 후, 새로운 상태를 얻고 다시 디퓨젼 절차를 실행하여 새로운 계획 궤적을 얻는다. 이 과정은 목표가 달성될 때 까지 반복된다. 그러나 이 방법의 Challenge는 Safe guarantee가 없다는 것이다. 예를 들어 궤적은 미로에서 안전 제약을 쉽게 위반할 수 있다. (그림 1처럼) 이런 단점은 신뢰할 수 있는 정책 학습 및 최적화와 같은, 안전이 중요한 응용 분야에서 계획된 궤적의 안전한 생성을 보장하기 위해 디퓨젼 모델의 근본적인 수정을 필요로 하낟.
이 논문에서 우리는 유한 시간 디퓨젼 불변성을 사용하여 디퓨젼 모델에 Specification guarantee를 확보하는 방법을 제안한다. Invariance set은 주로 플래닝 작업에서 안전 제약으로 구성된 Specification의 한 형태이다. 우리는 디퓨젼 모델이 디퓨젼 절차에서의 불확실성에 불변하도록 보장한다. 우리는 안정적인 디퓨젼과 Receding horizon control을 결합하여 안전을 달성한다. Receding horizon control에서는 안전한 경로를 점진적으로 계산한다. 핵심적인 통찰은, 각 경로 계산을 디퓨젼 기반 경로 생성으로 대체하여 경로 공간의 더 넓은 탐색을 가능하게 하고 추가 제약을 포함하는 것은 상대적으로 쉽게 만드는 것이다. 계산된 경로는 안전하게 작동할 수 있는지 검증하기 위해 시뮬레이션과 결합된다.
Diffuser에서 specification guarantee를 확보하기 위해 우리는 먼저 디노이징 디퓨젼 절차에 대한 디퓨젼 역학을 찾는다. 그런 다음, CBF와 같은 전방 불변성 특징을 가진 Lyapunov 기반 방법을 사용하여 디퓨젼 절차의 끝에서 specification의 만족을 공식적으로 보장한다. CBF는 로봇 역학을 사용하는 계획에서 잘 작동하지만, 디퓨젼 모델에서 이를 수행하는 것은 생성된 데이터가 로봇 역학과 직접 연관되지 않아 CBF의 사용이 간단하지 않기 때문에 추가적인 도전을 제시한다.
Contribution :
1. We propose formal gaurantees for diffusion probabilictic models via control-theoretic invariance. 2. We propose a novel notion of finite-time diffusion invariance, and use a class of CBFs to incorporate it into the diffusion time of the procedure. We propose three difference safe diffusers, and show how we may address the local trap problem from specifictions that are prominent in planning tasks. 3. We demonstrate the effectiveness of our method on a variety of planning tasks using diffusion models, including safe planning in maze, robot locomotion and manipulation.
Preliminaries
이 섹션에서는 디퓨젼 모델과 제어 이론에서의 forward invariance에 대한 배경을 제공한다.
Diffusion Probabilistic Models
디퓨젼 확률 모델은 생성 과정을 반복적인 디노이징 절차로 표현하는 잠재 변수 모델이며, 여기서 τ1,...,τN은 깨끗한(노이즈가 없는) 데이터 τ0 ∼q(τ0)와 같은 차원의 잠재 변수이며 N은 총 디노이징 단계이다. 이 디노이징 절차는 노이즈를 추가하여 깨끗한 데이터를 점진적으로 손상시키는 Forward 디퓨젼 과정 q(τi|τi-1)의 역과정이다. 디노이징 데이터 생성은 다음과 같이 표시된다.
여기서 p(τN)은 표준 가우시안 사전 분포이며, 결합 분포 pθ(τ0)는 p(τN)에서 시작하는 학습된 가우시안 전이를 가진 마르코프 체인으로 정의된다. 매개변수 θ는 역 과정의 음의 log probability에 대한 일반적인 variational bound를 최소화하여 최적화된다. 전방 디퓨전 과정 q(τi|τi-1)은 보통 미리 지정된다. 역 과정은 종종 시간 의존적인 평균과 분산을 가진 가우시안으로 매개변수화된다.
Notations
이 논문에서는 두 가지 '시간'이 관견되어 있다. 디퓨젼 과정에서의 시간과, Planning horizon의 시간이다. 우리는 위첨자(지정되지 않은 경우 i)을 사용하여 궤적(상태)의 디퓨젼 시간을 나타내고, 아래 첨자 (지정되지 않은 경우 k)를 사용하여 궤적 상의 상태의 계획 시간을 나타낸다. 예를 들어 τ0는 디노이징 디퓨젼 시간 단계 0에서의 계획 궤적(노이즈가 없는 궤적)을 나타내고, x⁰ₖ는 디노이징 디퓨젼 시간 단계 0동안 계획 시간 단계 k에서의 궤적 상의 상태를 나타낸다.
Forward Invariance in Control Theory
다음 형태의 Affine 제어 시스템을 고려한다.
여기서 xₜ ∈Rⁿ, f: Rⁿ→Rⁿ과 g: Rⁿ→Rⁿˣᵍ는 국소적으로 립시츠이다.
Lipschitz
립시츠 연속성은 함수의 변화율에 상한이 있다는 것을 의미한다.
함수 f: X → Y가 립시츠 연속이라는 것은 어떤 상수 K ≥ 0(이를 "립시츠 상수"라고 함)가 존재해서 모든 x₁, x₂ ∈ X에 대해 다음 부등식을 만족한다는 뜻
|f(x₁) - f(x₂)| ≤ K|x₁ - x₂|
입력값의 변화에 대한 출력값의 변화가 일정 비율 이상으로 커지지 않는 함수
uₜ ∈U ⊂Rᵍ이고, U는 제어 제약 집합을 나타냅니다. ẋₜ는 상태 xₜ의 (계획) 시간 미분을 나타낸다.
정의 1. (집합 불변성): 집합 C ⊂Rⁿ는 어떤 u ∈U에 대한 시스템 (2)의 해가 모든 x₀ ∈C에서 시작하여 xₜ ∈C, ∀t ≥0을 만족하면 시스템 (2)에 대해 forward invariant하다.
어떤 집합 C가 시스템에 대해 forward invariant하다는 것은 시스템의 상태가 한 번 그 집합 안에 들어가면, 이후의 모든 시간에서도 그 집합 안에 머무른다는 의미이다.
동적 시스템 ẋₜ = f(xₜ) + g(xₜ)uₜ에 대해 집합 C가 forward invariant하다는 것은
만약 초기 상태 x₀가 C 안에 있다면
어떤 제어 입력 u를 적용했을 때
모든 미래 시간 t ≥ 0에 대해 시스템의 상태 xₜ는 계속해서 C 안에 있게 된다는 뜻
정의 2. (확장된 K 클래스 함수): 립시츠 연속 함수 α: [-b,a) → (-∞,∞), b > 0, a > 0는 엄격하게 증가하고 α(0) = 0이면 확장된 K 클래스에 속한다.
Extended K Class function
기본적인 K 클래스 함수
정의역이 [0, a)인 연속 함수(a는 양수이거나 무한대)
엄격하게 증가하는 함수(x₁ < x₂이면 α(x₁) < α(x₂))
α(0) = 0을 만족하는 함수
Extended K 클래스 함수
정의역이 [-b, a)로 확장됨(b > 0, a > 0)
α(0) = 0을 만족
여전히 엄격하게 증가하며, 립시츠 연속 특성을 가짐
왜 Extended K Class Function이라는 특성이 나오는지?
이런 함수들은 CBF나 리아푸노프 함수와 같은 안정성 분석 도구에서 핵심적인 역할을 한다.
특히 시스템이 안전 제약 조건(b(x) ≥ 0)에 접근할 떄 행동을 제어하는 데 사용된다.
α(b(x)) 항이 CBF 조건에 포함되어 있을 때, 이 항은 시스템이 안전 경계에 가까워질수록(b(x)가 0에 가까워질수록) 제어 입력이 더 강력하게 작용하도록 한다.
음수 값에 대해서도 정의됨으로써, 시스템이 일시적으로 안전 영역을 벗어나더라도 다시 안전 영역으로 돌아올 수 있는 방법을 제공한다.
Lyapunov function
동적 시스템의 안전성을 분석하는 데 사용되는 수학적 도구.
동적 시스템이 평형점(균형 상태)에 있을 때, 그 시스템의 "에너지"를 측정하는 함수를 정의
평형점에서는 최소값(보통 0)을 가지며, 평형점에서 멀어질수록 값이 증가
ẋ = f(x)에 대해, 함수 V(x)가 다음 조건을 만족하면 리아푸노프 함수
V(x) > 0, 모든 x ≠ 0에 대해
V(0) = 0 (평형점에서 0)
V̇(x) < 0, 모든 x ≠ 0에 대해 (시간에 따른 감소)
ex
진자 시스템에서는 총 에너지(운동 에너지 + 위치 에너지)가 리아푸노프 함수로 사용될 수 있다.
마찰이 있다면 시간이 지남에 따라 에너지가 감소하고, 결국 진자는 평형 상태(아래쪽으로 걸려 있는 상태)로 수렴
정의 3. (제어 장벽 함수 CBF) : 함수 b: Rⁿ→R는 모든 xₜ ∈C에 대해 다음을 만족하는 확장된 K 클래스 함수 α가 존재하면 CBF이다.
Lf와 Lg는 각각 f와 g를 따라 x에 대한 리 도함수를 나타낸다.
CBF
제어 장벽 함수는 시스템이 특정 안전 영역 안에 머물도록 보장하는 수학적 도구이다.
작동 방식
안전 영역을 수학적 함수 b(x)로 정의(예: b(x) ≥ 0이면 안전).
시스템이 안전 경계(b(x) = 0)에 접근할 때, CBF는 시스템이 안전 영역을 벗어나지 않도록 제어 입력에 제약을 가함.
Lie derivative
리 도함수는 벡터장을 따라 함수가 어떻게 변화하는지를 측정하는 방법
일반적인 도함수가 특정 방향으로의 변화율을 측정하는 것처럼, 리 도함수는 시스템의 동역학 방향으로의 변화율을 측정.
ex
일반 도함수: 공간의 한 방향으로 얼마나 빨리 변하는지
리 도함수: 시스템이 자연스럽게 움직이는 방향으로 얼마나 빨리 변하는지
CBF 조건에서, L_f b(x)는 시스템의 자연스러운 동역학만 고려했을 때 안전 함수 b(x)가 어떻게 변하는지 나타낸다.
L_g b(x)는 제어 입력이 안전 함수에 어떤 영향을 미치는지 나타낸다.
이 두 항을 결합하여, 시스템이 안전 경계에 접근할 때 적절한 제어 입력을 선택할 수 있다.
만약 제어 uₜ가 명시적으로 나타날 때까지 동역학 (2)을 따라 b(xₜ)를 한 번 이상 미분해야 한다면, 우리는 고차 CBF를 시스템 (2)의 안전을 보장하기 위한 CBF의 일반적인 형태로 사용한다. 이 연구에서, 우리는 제어 이론에서의 전방 불변성을 디퓨전 모델에서의 유한 시간 디퓨전 불변성에 매핑하며, 여기서 우리는 CBF를 계획 시간에서의 일반적인 응용과는 달리 디퓨전 시간에 통합한다. 또한, 디퓨전 동안 local trap을 어떻게 해결할 수 있는지 보여준다.
Safe Diffuser
이 섹션에서는 디퓨젼에서 안전한 데이터 생성을 보장하기 위해 세 가지 다른 안전한 디퓨져를 제안한다. 즉, 모든 k ∈{0,...,H}에 대해 b(xk) ≥0의 만족을 보장한다.
디노이징 디퓨젼 절차에서 학습된 가우시안 전이가 p(xN)∼N(0, I)에서 시작하기 때문에, 처음에는 Specification이 위반될 가능성이 높다. 즉, 어떤 k ∈{0,...,H}에 대해 b(xNk) < 0이다.
안전한 데이터 생성을 위해, 우리는 모든 k ∈{0,...,H}에 대해 b(x0k) ≥0(즉, b(xk) ≥0)을 갖기를 원한다. 최대 디노이징 디퓨전 단계 N이 제한되어 있기 때문에, 이는 유한한 디퓨전 시간 단계 내에서 보장되어야 한다. 따라서, 우리는 디퓨전 절차의 유한 시간 디퓨전 불변성을 다음과 같이 제안한다.
정의 4 (Finite-time Diffusion Invariance): 만약 i ∈{0,...,N}이 존재하여 모든 k ∈{0,...,H}와 모든 j ≤ i에 대해 b(xjk) ≥0이라면, 디노이징 디퓨전 절차 pθ(τi-1|τi), i ∈{1,...,N}은 명세 b(xk) ≥0, 모든 k ∈{0,...,H}에 대해 유한 시간 디퓨전 불변이다.
Robust-Safe Diffuser
안전한 디노이징 디퓨젼 절차는 모든 디퓨젼 단계에서 고려된다. (1)에 따라, 디퓨젼 시간 j ∈{0,...,N-1}에서의 데이터 생성은 다음과 같이 주어진다.
샘플 τj, j ∈{0,...,N-1}는 (4)의 데이터 분포를 따르므로 우리는 다음과 같은 식을 가진다.
디노이징 디퓨전 동역학은 다음과 같이 주어진다.
여기서 τ̇는 τ의 (디퓨전) 시간 도함수이고, Δτ > 0은 구현 중 충분히 작은 디퓨전 시간 단계 길이이며, τj+1은 마지막 디퓨전 단계에서 이용 가능하다. 디퓨전 절차에 유한 시간 디퓨전 불변성을 부과하기 위해, 우리는 디퓨전 역학 (6)을 제어 가능하게 만들고자 하였다.
여기서 uj는 τj와 같은 차원의 제어 변수이다. 한편, 우리는 디퓨전 모델의 성능을 최대한 보존하기 위해 uj가 (τj-τj+1)/Δτ에 가깝게 유지되기를 원했다. 위 모델은 궤적 τj의 각 상태에 대해 다음과 같이 다시 작성될 수 있다.
그런 다음, 우리는 b(xjₖ) ≥ 0의 만족을 보장하기 위한 CBF를 정의할 수 있다.
기존 디퓨젼
원래 디퓨전 과정에서는 τ̇j = lim(Δτ→0) (τj-τj+1)/Δτ 형태로 표현된다.
이 식에서 τj+1은 이전 디퓨전 단계에서 이미 결정된 값이며, 시스템의 다음 상태가 현재 상태와 이전에 계산된 상태에 의해 고정적으로 결정되는 형태이다.
이런 상황에서는 안전 제약조건을 충족시키기 위해 시스템의 동작을 변경할 방법이 없다.
τ̇j = uj로 재정의하면
uj라는 새로운 변수를 도입하여 시스템의 움직임을 직접 제어할 수 있게 됨
uj를 어떤 값으로 설정하느냐에 따라 시스템의 다음 상태를 조절할 수 있음
Relaxed-Safe Diffuser
Invariance를 강조하는 이유
디퓨젼 모델은 강력한 데이터 생성 능력을 가지고 있지만, 안전 제약 조건을 만족시킨다는 보장이 없음.
이 논문에서 불변성(Invariance)은 "시스템이 한 번 안전한 상태에 들어가면, 이후에도 계속 안전한 상태를 유지한다"는 의미
어떤 디퓨전 단계에서 시스템이 안전 제약조건(b(x) ≥ 0)을 만족하면
이후의 모든 디퓨전 단계에서도 그 제약조건이 만족되어야 함
따라서 이 논문은 다음 세 가지 방법으로 디퓨젼 모델에서 invariance를 확보
Robust-safe diffuser
디퓨전 과정을 제어 가능한 형태(τ̇j = uj)로 재정의
제어 장벽 함수(CBF)를 사용하여 안전 제약조건 적용
안전을 보장하면서도 원래 디퓨전 경로와 최대한 가깝게 유지
작동 방식
매 디퓨전 단계마다 최적화 문제(QP)를 해결하여 안전한 방향으로의 수정을 계산
원래 방향: (τj-τj+1)/Δτ
수정된 방향: uj (안전 제약조건 만족)
최적화 목표: ‖uj - (τj-τj+1)/Δτ‖²를 최소화 (원래 방향과 최대한 가깝게)
Relaxed-safe diffuser
강건-안전 디퓨저는 너무 엄격하여 "지역 트랩"에 빠질 수 있음
초기에 안전 지역에 들어가면 그 주변에서만 움직일 수 있게 됨
완화 변수(rⱼₖ)를 도입하여 일시적으로 안전 제약조건 위반 허용
시간에 따라 감소하는 가중치(wₖ(j))로 점차 엄격한 제약조건 적용
추가 디퓨전 단계(N_a)를 도입하여 최종 단계에서는 완전히 안전한 결과 보장
QP 최적화 접근법
매 디퓨전 단계에서 안전 제약조건을 만족하는 최적의 제어 입력 uⱼ* 계산
원래 디퓨전 방향과의 편차를 최소화하면서 안전 제약조건 만족
계산된 제어 입력으로 디퓨전 상태 업데이트
이러한 방법을 통해 디퓨전 모델은 원래의 생성 능력을 최대한 유지하면서도 안전한 경로나 계획을 생성할 수 있게 됨.