SAM 3D: 3Dfy Anything in Images

Posted Jun 9, 2026

By SangEun Lee

2 min read

SAM 3D: 3Dfy Anything in Images

cvpr 2026
meta sam3d 팀

배경

기존 3d 생성 모델은 objaverse와 같이 고립된 single object 데이터로 학습되어 실제 사진 속 객체를 복원하는데 한계가 있었음
특히 실제 환경에서 일어나는 가림, 복잡한 배경, 원거리 객체 등에 대한 대규모 학습 데이터 부족
본 연구는 자연 이미지 속 객체의 형상, 텍스처, 레이아웃까지 복원할 수 있는 범용 3d 파운데이션 모델인 sam 3d를 제안함

방법론

입력: 단일 이미지, 객체 마스크 (원하는 위치 지정)
객체의 형상, 텍스처, 위치, 자세를 복원하는 2단계 구조를 설계함
- geometry model이 객체의 rough한 형상과 3d 배치 정보를 예측
- 이후에 texture-refinement 모델이 세부 형상과 텍스처를 생성함
학습
- stage 1: objaverse 기반 270만개 에셋으로 synthetic 사전학습
- stage 1.5: 실제 이미지 위에 3d 객체를 합성한 semi-synthetic 데이터로 mid-training 수행
- stage 2: model in the loop 엔진을 활용해 실제 이미지에 대한 3d 주석을 수집하고 sft/dpo 수행
  - 모델이 생성한 3d 후보 중에서 사람이 가장 적절한 결과를 선택하고 정렬하는 방식
  - 약 100만장의 이미지와 314만개의 주석 데이터를 확보함
모델 구조는 trellis에서 따온듯

기여점

자연 이미지 속 객체의 형상, 텍스처, 위치를 동시에 복원할 수 잇는 sam 3d

paper-review, 3d-generation

This post is licensed under CC BY 4.0 by the author.