Motion DUSt3R(MonST3R)는 영상의 움직임을 분석해 각 프레임마다 변화하는 동적 포인트 클라우드를 생성하고, 프레임별 카메라 자세와 내재적 파라미터를 주로 순차적 방식으로 처리한다. 이러한 표현방식은 영상 깊이 추정 및 동적/정적 장면 구분 등 후속 작업을 효율적으로 계산할 수 있게 한다.
동적인 장면에서 기하학적 정보를 추정하는 것은 컴퓨터 비전의 핵심 과제로, 시간에 따라 움직이고 변형되는 객체들이 존재한다. 기존 접근법들은 종종 복잡한 시스템을 만들어 오류가 발생할 가능성이 있는 다단계 파이프라인이나 전반적인 최적화에 의존한다. 이번 연구에서는 새로운 기하학 중심 접근 방식인 MonST3R를 소개하여 시간단위로 동적인 장면의 기하학을 직접 추정한다. 주요 통찰은 각 시간단위로 포인트맵을 추정함으로써 기존에 정적 장면에만 사용되던 DUST3R의 표현을 동적인 장면에도 효과적으로 적용할 수 있다는 점이다.
그러나 이 접근방식은 동적, 정렬된 비디오와 깊이 레이블을 포함하는 적절한 학습 데이터가 부족하다는 상당한 도전을 안겨준다. 그럼에도 불구하고, 문제를 미세 조정 작업으로 설정하고 적절한 데이터세트를 식별하며 제한된 데이터로 모델을 전략적으로 훈련시킴으로써 모션 명시적 표현이 없어도 역동적인 장면을 처리할 수 있음을 보여준다. 이를 바탕으로 여러 비디오 전용 후속 작업에 대한 새로운 최적화를 도입하고, 이전 연구 대비 견고성과 효율성 측면에서 강력한 성능을 입증한다. 더욱이 MonST3R는 주로 순차적인 4D 재건에서도 유망한 결과물을 보여준다.
두 프레임 이상의 비디오 입력의 경우, 쌍별 포인트맵 결과를 모두 합쳐 글로벌 포인트 클라우드를 구축할 수 있다. 일정한 크기의 시간적 윈도우가 주어지면, MonST3R와 비축 방식의 옵티컬 플로우 방법으로 각 프레임 쌍의 쌍별 포인트맵을 계산한다. 이러한 중간 결과들은 글로벌 포인트 클라우드와 각 프레임의 카메라 자세 및 내재적 파라미터 최적화를 위한 입력으로 사용된다. 영상의 깊이는 이 통합된 표현 방식에서 직접 도출될 수 있다.
글로벌 최적화는 정렬 손실, 흐름 손실, 부드러움 손실 세 가지 손실 항목을 기반으로 한다.
수치적으로, MonST3R의 비디오 깊이 추정 결과는 특정 작업 방법과 경쟁력을 가지며, 질적으로는 실제 깊이 데이터와 더욱 잘 맞는다. 카메라 자세 추정 결과 역시 특정 작업 방법과 경쟁력이 있으며, 도전적인 장면에서도 견고성을 보여준다. MonST3R는 신뢰할 수 있는 카메라 궤적과 동적 장면의 기하학을 출력하며 대규모 장면을 표현하는 모델 능력을 향상시킨다.
또한, 미세 조정 후에도, MonST3R는 카메라의 내재적 변화와 모션이 있는 상황에서 발생하는 "불가능한" 정렬을 처리할 수 있는 능력을 유지한다.
출처 : 원문 보러가기