3D 모델 추론 솔루션

1 minute read

2D 카메라 기반 3D 물체 인식 솔루션 개요

이 문서는 2D 카메라만으로 3D 공간에서 물체를 추론할 수 있도록 하는 다양한 솔루션들을 소개합니다. 이 솔루션들은 추가 학습 없이, 또는 최소한의 추가 학습으로도 제로샷(Zero-Shot) 기반의 물체 인식 및 자세 추정을 지원합니다.

SAM3D 논문
SAM3D는 Segment Anything Model (SAM)의 제로샷 능력을 3D 물체 탐지로 확장하려는 연구입니다. 추가 학습 없이도 3D 물체 탐지를 시도하는 접근법으로, 관련 연구들이 진행 중입니다.
FreeZe
FreeZe는 추가 학습 없이 6D 자세 추정을 가능하게 하는 방법을 제안합니다. 기하학적 및 비전 기반의 사전 학습 모델을 활용하여 새로운 물체에 대해 제로샷으로 3D 위치와 자세를 추정합니다.
OVIR-3D github
OVIR-3D는 3D 데이터 없이도 오픈 보캐뷸러리(open-vocabulary) 방식을 사용해 3D 객체 인스턴스를 검색할 수 있는 방법을 제공합니다. 다중 뷰 텍스트 정렬된 2D 영역 제안을 3D 공간으로 융합하여 실시간으로 작동합니다.
LR3D
LR3D는 기존의 카메라 기반 탐지기에 쉽게 통합될 수 있는 “Implicit Projection Head”를 도입하여, 2D 박스 주석만으로도 장거리(200m 이상)에서의 3D 물체 탐지를 가능하게 합니다.

대규모 비전 모델을 활용한 제로샷 기반 3D 물체 탐지는 추가 학습 없이도 다양한 환경에서 효과적으로 동작할 수 있는 가능성을 보여줍니다. 이러한 기술은 로봇 조작 및 인공지능 응용 분야에서 중요한 역할을 할 것으로 기대됩니다.