Uni3D: Exploring Unified 3D Representation at Scale
ICLR 2024 Spotlight / Authors from Beijing Academy of Artificial Intelligence, Tsinghua U, Peking U
https://github.com/baaivision/Uni3D
Abstract
- ์ด๋ฏธ์ง/ํ ์คํธ representation ํ์ต์ ๋๊ท๋ชจ ์ค์ผ์ผ๋ง ๋๋ถ์ ํญ๋ฐ์ ์ผ๋ก ๋ฐ์ ํจ, 3d ๊ฐ์ฒด/์ฅ๋ฉด์ ๋๊ท๋ชจ๋ก ์ค์ผ์ผ๋งํ ์ฐ๊ตฌ๋ ๊ฑฐ์ ์์
- ๋ณธ ์ฐ๊ตฌ์์๋ Uni3D๋ฅผ ์ ์ํจ - ํตํฉ 3d ํํ ๋ฅ๋ ฅ์ ๊ฐ์ง 3d foundation ๋ชจ๋ธ
- pretrained ViT๋ฅผ ์ด๊ธฐํ์ํ๋ก ์ฌ์ฉ
- 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ ํน์ง์ ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ ฌ๋ feature space๋ก end-to-end ์ ๋ ฌ
- โ 2d ์ธ๊ณ์์ ์ด๋ฏธ ํ์ต๋ ํํ๋ ฅ์ 3d ์ธ๊ณ๋ก ๋์ด์ค๋ ๊ตฌ์กฐ
- โ๋งค์ฐ ํฐ ๋ชจ๋ธ๋ก ์ฑ๋ฅ ํ์ ์ ์ด๋ฃฌ ์ด๋ฏธ์ง/ํ ์คํธ ๋ถ์ผ์ฒ๋ผ, 3d์์๋ ํฐ ๋ชจ๋ธ๋ก scaling up, ์ฑ๋ฅ์ ๊ฐ์ ํด๋ณด์!โ
- ์ด๋ฅผ ํตํด์, 2d ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ์ง์์ ํ์ฉํ๊ณ , clip ๋ฑ multimodal ๋ชจ๋ธ์ ์๋ฏธ ๊ณต๊ฐ์ ํ์ฉ ๊ฐ๋ฅํจ โ 3d representation ์ค์ผ์ผ ์
- ๋จ์ํ ์ํคํ
์ณ, ๋์ ํ๋ผ๋ฏธํฐ ์๋ฅผ 1B๊น์ง ํ์ฅ โ ์ค์ผ์ผ ์ฆ๊ฐ์ ํจ๊ป 3D ํํ ๋ฅ๋ ฅ์ด ๊ณ์ ํฅ์๋จ
- task: zero-shot classification, few-shot classification, open-world understanding, part segmentation์์ ์๋ก์ด ๊ธฐ๋ก์ ๋ฌ์ฑํจ
Introduction
- 3D ํํ ํ์ต์ ์ค์์ฑ
- ํ์ง๋ง ๊ธฐ์กด 3D ์ฐ๊ตฌ๋ ์์ ์ค์ผ์ผ์ ๋จธ๋ฌผ๋ฌ์์
- ํ์ต ํ๋ผ๋ฏธํฐ ์, ๋ฐ์ดํฐ ๊ท๋ชจ, ๊ณผ์ ๋ค์์ฑ ๋ชจ๋ ์ ํ์ ์
- ๋ฐ๋ฉด, ์ด๋ฏธ์ง/ํ
์คํธ๋ ์ค์ผ์ผ ํ์ฅ์ ํตํด ์ฑ๋ฅ ํ์ ์ ์ผ์ผํด
- nlp โ llm
- vision โ ๊ฑฐ๋ ViT, CLIP โฆ
- ์ด ์ฑ๊ณต์ 3d ์ธ๊ณ์ ์ ์ฉํ๊ณ ์ ํจ
- โ3D์์๋ ๋๊ท๋ชจ ๋ชจ๋ธ ์ค์ผ์ผ ํ์ฅ๊ณผ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ํ๋ฉด ์ฑ๋ฅ์ด ๊ทน์ ์ผ๋ก ์ข์์ง๊น?โ
- ๊ธฐ์กด์ 3d ์ค์ผ์ผ๋ง ์๋๋ ์์์ผ๋, ์ถฉ๋ถํ์ง ์์
- ๋ฐฉ๋ฒ๋ก
- 3d encoder๋ 2d ViT๋ก ์ด๊ธฐํํจ
- 3d point cloud ํผ์ฒ๋ฅผ image-text ํผ์ฒ ๊ณต๊ฐ์ ์ ๋ ฌํจ
- ์ํคํ
์ฒ์ pretext task๊ฐ ๋จ์ํจ
- 2d ๋ชจ๋ธ์ ์ด๊ธฐํํด์ ์ฝ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํจ
- clip/blip ๊ณ์ด image-text aligned ๋ชจ๋ธ์ ํ๊น์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅ
- ์ค์ผ์ผ๋ง ์คํ
- ์ธ ๋ฐฉํฅ์ผ๋ก ์ค์ผ์ผ ํ์ฅ
- ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ: 6M โ 1B
- ์ด๊ธฐํ ์์ค ํ์ฅ: visual self-supervised โ text-supervised
- ํ๊น ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธํ์ฅ : 150M โ 5B
- ๋ชจ๋ ๋ฐฉํฅ์์ ์ค์ผ์ผ์ ํค์ธ์๋ก ์ฑ๋ฅ์ด ์ง์ ์์นํจ์ ๋ฐ๊ฒฌํจ
- ์ธ ๋ฐฉํฅ์ผ๋ก ์ค์ผ์ผ ํ์ฅ
- ๊ฒฐ๊ณผ
- modelNet zero shot ์ฑ๋ฅ 88.2%, ์ผ๋ถ supervised ๋ฐฉ๋ฒ์ ํ์ ํ๋ ์ฑ๋ฅ์
- few-shot, part segmentation, open world understanding ๋ฑ ์ฌ๋ฌ task์์ sota ๋ฌ์ฑ
- ๊ทธ ์ธ task์ ๋ํด์ ์์ฉ์ด ๊ฐ๋ ฅํจ
โ โ2Dยท์ธ์ด ์ธ๊ณ์์ scaling์ด ํ์ ์ ๋ง๋ ๊ฒ์ฒ๋ผ, 3D์์๋ scaling์ด ์ฑ๋ฅ์ ํญ๋ฐ์ ์ผ๋ก ํฅ์์ํจ๋คโ๋ ์ฌ์ค์ ์ฒ์์ผ๋ก ๊ฑฐ๋ ๊ท๋ชจ ์คํ์ผ๋ก ์ ์ฆ
Method
3.1. Unified 3D representation
- uni3d๋ 2d ViT ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก 3d์ ๊ฐ์ ธ์ค๋ ๊ฒ์ด ํต์ฌ์
- ๋ฐฑ๋ณธ์ vanilla transformer๊ณ , 3d ์
๋ ฅ์ ViT๊ฐ ์ฒ๋ฆฌํ ์ ์๋ ํ ํฐ ํํ๋ก ๋ฐ๊ฟ์ฃผ๋ ๋ถ๋ถ๋ง ๊ต์ฒดํจ
- patch embedding โ point tokenizer๋ก ๊ต์ฒด!
- ๋ฐฑ๋ณธ์ vanilla transformer๊ณ , 3d ์
๋ ฅ์ ViT๊ฐ ์ฒ๋ฆฌํ ์ ์๋ ํ ํฐ ํํ๋ก ๋ฐ๊ฟ์ฃผ๋ ๋ถ๋ถ๋ง ๊ต์ฒดํจ
point tokenizer- FPS โ KNN โ PointNet โ Transformer โ 3d repr
- FPS๋ฅผ ํตํด ๋ํ ํฌ์ธํธ๋ฅผ ์ํ๋งํจ
- KNN ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๊ฐ ๋ํ ํฌ์ธํธ ์ฃผ๋ณ์ ์ด์ ํฌ์ธํธ๋ฅผ ๊ทธ๋ฃนํํด์ ํ๋์ ๋ก์ปฌ ์์ญ์ด 3D ํจ์น๊ฐ ๋๋๋ก ํจ
- tiny pointNet ์ธ์ฝ๋
- ๊ฐ 3d ํจ์น์์ ํน์ง ๋ฒกํฐ๋ฅผ ์ถ์ถ
- ์ญํ ?
- ๊ธฐ์กด transformer์ ์
๋ ฅ ํ์
- [ํ ํฐ1, ํ ํฐ2, ํ ํฐ3, โฆ]
- ๊ฐ ํจ์น๋ ๋ค์๊ณผ ๊ฐ์
- patch1 = (์ 1, ์ 2, ์ 3, โฆ) โ N๊ฐ ์ (๊ฐ์ ์ผ์ ํ์ง ์์) patch2 = (์ 1, ์ 2, ์ 3, โฆ) โ ๋ ๋ค๋ฅธ N๊ฐ ์ โฆ
- ์ ์๋ฅผ ์ผ์น์ํค๊ณ , ๊ณต๊ฐ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด์ pointNet์ ๊ฑฐ์น๋ ๊ณผ์ ์ด ํ์ํจ
- ๊ธฐ์กด transformer์ ์
๋ ฅ ํ์
- ViT์์์ ํจ์น ์๋ฒ ๋ฉ๊ณผ ๋์ผํ ์ญํ ์ ํ๋๋ก!
- ๊ทธ ๋ค์ ์ด 3d ํ ํฐ๋ค์ด transformer์ ์ ๋ ฅ๋จ โ transformer โ 3d representation ์ถ์ถ
Scaling up Uni3D
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ 3D scaling up ์คํจ ์๋๋ค..
- ๋๋ถ๋ถ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ, ์์ ๋ชจ๋ธ ๊ท๋ชจ์ ๋จธ๋ฌด๋ฆ
- ์ฐ๊ตฌ ํฌ์ปค์ค๊ฐ ๋ชจ๋ธ ์ํคํ ์ณ ์ค๊ณ์ ์ง์คํจ
- objaverse ๋ฑ์ฅ ์ดํ์ ์ค์ผ์ผ๋ง ์๋ํ ์ฐ๊ตฌ๋ค์ด ์์์ผ๋, ๋ฐฑ๋ณธ์ด ๋๋ฌด ์์
- ์์ธ?
- 3D ๋ฐฑ๋ณธ์ด ํต์ผ๋์ด ์์ง ์์ / ์ผ๊ด๋ ์ค์ผ์ผ๋ง ์ ๋ต ์ ์ฉํ ์ ์์
- ์ผ๋ถ ๋ฐฑ๋ณธ์ ํฌ์ธํธ ์ ์ฒด์์ ๋ก์ปฌ ํจํด์ ์ง์ ๋ชจ๋ธ๋งํ๋ ๋ฐฉ์ (DGCNN, PointMLP ๋ฑ)
- ๋ชจ๋ธ์ด ์ปค์ง์๋ก ๊ณ์ฐ๋์ด ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐ โ ์ค์ผ์ผ ํ์ฅ์ด ์ฌ์ค์ ๋ถ๊ฐ๋ฅํจ
- Uni3d์ ์ ๊ทผ๋ฐฉ๋ฒ
- ๋ค๋ฅธ 3d ๋ฐฑ๋ณธ์ ๊ฐ ๊ตฌ์กฐ๋ง๋ค ๋ค๋ฅธ ์ค์ผ์ผ ์ ๋ต์ด ํ์ํจ
- Uni3d๋ ViT ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉ โ ์ด๋ฏธ ๊ฒ์ฆ๋ ์ค์ผ์ผ์ ์ ๋ต์ ์ฌ์ฉ ๊ฐ๋ฅํจ
- ViT๊ฐ ํ์ฅํ๋ ๋ฐฉ์ ๊ทธ๋๋ก Uni3d๋ฅผ ํ์ฅ์ํด
- Tiny (6 M), Small (23M), Base (88 M), Large (307 M), Giant (1B)
- ๋จ์ํ๊ฒ ViT๋ฅผ ํฐ ๋ฒ์ ์ผ๋ก ๊ต์ฒดํ๋ ๋ฐฉ์์ผ๋ก ์ค์ผ์ผ ์ ์ ์ํด
- ์คํ ๊ฒฐ๊ณผ๋ฅผ ํตํด์, ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ธ์๋ก ์ง์์ ์ผ๋ก ์ฑ๋ฅ์ด ์์นํจ์ ํ์ธ
- <scale = ์ฑ๋ฅ>์ด 3d์์ ์ฑ๋ฆฝํจ์ ์ค์ฆ
- ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํ์ต ์์ ์ฑ๋ ์ ์ง๋จ
- ์ต์ข
์ฑ๊ณผ
- 1B ํ๋ผ๋ฏธํฐ์ 3d representation model์ ์ต์ด๋ก ๊ตฌ์ถํจ
- 100๋ง๊ฐ์ 3d shape, 1์ฒ๋ง๊ฐ ์ด๋ฏธ์ง, 7์ฒ๋ง๊ฐ ํ ์คํธ๋ก ๋ฉํฐ๋ชจ๋ฌ alignment ํ์ต
- ์ฌ๋ฌ downstream task์์ ๊ฐ๋ ฅํ ์ ์ด ์ฑ๋ฅ ํ์ธํจ
Initializing Uni3D
- ๊ธฐ์กด 3d ์ฌ์ ํ์ต์์ ๋ํ๋๋ ๋ ๋ค๋ฅธ ๋ฌธ์
- ๋ชจ๋ธ์ ํฌ๊ฒ ๋ง๋ค๋ฉด: overfitting, ์๋ ด ๋ถ์์ ๋ฑ ๋ฐฑ๋ณธ ํ์ต์ด ์ด๋ ค์!
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก 3d ์ ์ฉ pretext task๋ก ์ฌ์ ํ์ต์ ๋จผ์ ํ๋ ๊ฒ
- ํ๊ณ: ์ฌ์ ํ์ต ๋น์ฉ์ด ํผ, ๋ฐ์ดํฐ ์ค์ผ์ผ์ด ์์์ ๊ฐ๋ ฅํ prior๋ฅผ ๋ง๋ค๊ธฐ ์ด๋ ค์
- Uni3D์ ์ ๊ทผ๋ฐฉ๋ฒ
- 3d ๋ฐฑ๋ณธ์ ViT๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ 3D ์ ์ฉ ์ฌ์ ํ์ต ํ ํ์๊ฐ ์์
- ์ด๋ฏธ์ง/๋ฉํฐ๋ชจ๋ฌ์์ ์ด๋ฏธ ํ์ต๋ ๊ฑฐ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๊ทธ๋๋ก ์ด๊ธฐํ ์ง์ ์ผ๋ก ์ฌ์ฉ
- ์ด๋ฏธ ํ์ตํ ๋๊ท๋ชจ ์ง์, ๊ฐ๋ ฅํ ํํ ๋ฅ๋ ฅ์ leverageํ๋ ๊ฒ
- ex. 2d self-supervised (dino, eva ๋ฑ), text-image ์ ๋ ฌ ๋ชจ๋ธ (clip ๋ฑ)
- ์ด๋ค transformer ๋ชจ๋ธ์ ๊ฐ์ ธ์๋ ์ฌ์ฉํ ์ ์์!!
- ํ๋ง๋๋ก pretrained vit์์ ํ์ต์ ์์ํด์ 3d ์ธ๊ณ์ ์ ์ฉ ๊ฐ๋ฅํ๋๋ก finetuningํ๋ ๊ฒ
- ์ด๋ฅผ ํตํด,
- ๋ํ 3d ๋ฐฑ๋ณธ์์๋ overfitting, ํ์ต ๋ถ์์ ํ์์ด ํฌ๊ฒ ์ํ
- ๊ฑฐ๋ํ ๋ชจ๋ธ ๊ท๋ชจ์์๋ cross-modal contrastive learning์ด ์์ํด์ง
3.2. Multi-Modal Alignment
- ulip, openshape์ ํจ๋ฌ๋ค์๊ณผ ์ ์ฌํ๊ฒ language, image, point cloud ์ฌ์ด์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฌ์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ
Datasets
- ๋์ผํ ์กฐ๊ฑด์์ ๋น๊ตํ๊ธฐ ์ํด์, openshape์ด ์ ๊ณตํ ์์๋ธ 3d ๋ฐ์ดํฐ์
์ ๊ทธ๋๋ก ์ฌ์ฉํด ํ์ตํจ
- objaverse, shapeNet, 3D-FUTURE, ABO
- 4๊ฐ์ ๋ฐ์ดํฐ์ ์ ํฉ์ณ ๊ฑฐ๋ 3d ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉ
- ์ ์ฒ๋ฆฌ
- pc 10000๊ฐ ์ํ๋ง (rgb ํฌํจ)
- 10๊ฐ์ ๋ ๋๋ง ์ด๋ฏธ์ง ์์ฑ
- openshape๊ณผ ๋์ผํ๊ฒ triplet์ ๊ตฌ์ฑํ์์
Objective
- ํ์ต ๋ชฉํ: 3d ํฌ์ธํธ ํด๋ผ์ฐ๋ ํน์ง์ clip์ ์ด๋ฏธ์ง-ํ ์คํธ ํน์ง ๊ณต๊ฐ๊ณผ ์ ๋ ฌํ๋๋ก 3d ์ธ์ฝ๋ f_p๋ฅผ ํ์ต์ํค๋ ๊ฒ
- ํ์ต ๋์: ๐ฅ3d encoder only, โ๏ธimage/text encoder๋ ํ์ต x
- ์ ๋ ฅ: triplet (pc, image, text)
- ํผ์ฒ ์ ๊ทํ l2 normalization โ e_p, e_i, e_t๋ฅผ ๋ง๋ฆ
- ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ์ง์ dot product๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋
- ์ด 4๊ฐ์ ์ ๋ ฌ ๋ชฉํ (openshape, ulip2์ ๋์ผํจ)
- 3d๋ฅผ ๊ณ ์ , ํ ์คํธ๋ฅผ ๋ณํ: ์ ๋ต ํ ์คํธ์ ๊ฐ๊น์์ง๊ณ , ์ค๋ต ํ ์คํธ์ ๋ฉ์ด์ง
- ํ ์คํธ๋ฅผ ๊ณ ์ , 3d๋ฅผ ๋ณํ: ์ ๋ต 3d์ ๊ฐ๊น์์ง๊ณ , ์ค๋ต 3d์ ๋ฉ์ด์ง
- 3d๋ฅผ ๊ณ ์ , ์ด๋ฏธ์ง๋ฅผ ๋ณํ: ์ ๋ต ์ด๋ฏธ์ง์ ๊ฐ๊น์์ง๊ณ , ์ค๋ต ์ด๋ฏธ์ง์ ๋ฉ์ด์ง
- ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ , 3d๋ฅผ ๋ณํ: ์ ๋ต 3d์ ๊ฐ๊น์์ง๊ณ , ์ค๋ต 3d์ ๋ฉ์ด์ง
Image-Text aligned target
- uni3d๋ ํน์ clip ๋ชจ๋ธ์ ์ข ์ x ์ด๋ค clip teacher๋ฅผ ์ฌ์ฉํ ์ ์์
- teacher CLIP์ด ์ปค์ง์๋ก Uni3D alignment๊ฐ ๋ ๊ฐ๋ ฅํด์ง๊ณ ์ฑ๋ฅ๋ ์์น
Experiment
4.1. Zero-shot Shape Classification
- ๋ฐ์ดํฐ์
: ModelNet (15 ์นดํ
๊ณ ๋ฆฌ), ScanObjNN (40), Objaverse-LVIS (1,156)
- openshape์ ์ธํ ์ ๋ฐ๋ฆ
- objaverse-lvis: 10,000 colored point ์ํ๋ง
- ModelNet40: 10,000 ํฌ์ธํธ ์ํ๋ง, ์์ x
- ScanObjNN: ์ ์๋ 2048 ํฌ์ธํธ ์ํ๋ง, obj_only version
- ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ: PointCLIP, PointCLIP V2, ULIP, OpenShape
- PointCLIP, PointCLIP V2: ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ด๋ฏธ์ง์ฒ๋ผ ํฌ์ํด์ 2d cilp์ผ๋ก ์ง์ ๋ถ๋ฅ
- ULIP, OpenShape: 3d ๋ฐฑ๋ณธ์ ํ์ตํ ํ 3d โ clip์ ์ ๋ ฌ
- โensembledโ: 4๊ฐ์ 3d ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต
- โensembled no LVISโ: ์ ๋ฐ์ดํฐ์์ LVIS ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ ๋ฒ์
- ์์๋ธ ๋ฒ์ ๊ณผ no lvis ๋ฒ์ ๋๋ค uni3d๊ฐ ๊ธฐ์กด sota๋ฅผ ๋ช ํํ๊ฒ ๋ฅ๊ฐํจ
- โ ๊ธฐํธ๋ ๊ฐ ๋ฒค์น๋งํฌ(ํ๊ฐ ๋ฐ์ดํฐ์ )์์ ํด๋น ๋ชจ๋ธ์ด ๊ธฐ๋กํ ์ต๊ณ ์ฑ๋ฅ์ ํ์๋ผ๋๋ฐ.. ๋ ํฐ ๋ชจ๋ธ์ ์๋ฏธ?
4.2. Few-shot Linear Probing
- linear probing?
- ๋ชจ๋ธ์ ํํ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ํ์ค ๋ฐฉ์
- ๋ฐฉ๋ฒ
- ํ์ตํ representation model (์ฌ๊ธฐ์๋ uni3d)๋ freeze
- ์ ์ labeled ๋ฐ์ดํฐ๋ง์ผ๋ก linear classifier๋ฅผ ํ์ต
- representation์ด ์ผ๋ง๋ ์ ํ์ต ๋๊ฑด์ง๋ฅผ ํ ์คํธํจ (๋ณ๋์ ๋ชจ๋ธ ํ์ต์ x)
- ๊ฐ์ : representation์ด ์ข์์๋ก ์ ์ labeled ๋ฐ์ดํฐ๋ง์ผ๋ก ์ ํ classifier๊ฐ ๋์ ์ ํ๋๋ฅผ ๋ผ ์ ์์ โ few-shot ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐ์ ์ ํฉํ๋ค
- objaverse-lvis์ ๋ํด์ ์ํ
- ํด๋์ค ๋น ๋ผ๋ฒจ์ด 1, 2, 4, 8, 16๊ฐ ์๋ few-shot ํ๊ฒฝ
- 1-shot ์ค์ ์ด๋ฉด โ ๊ฐ ์นดํ ๊ณ ๋ฆฌ๋น labeled ์ํ์ด 1๊ฐ๋ง ์ ๊ณต๋จ
- zero-shot์ few-shot๊ณผ ๋ค๋ฅด๊ฒ ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ์ ์ ์ฌ๋ ๋น๊ต ๋ฐฉ์, few-shot์ linear classifier ํ์ต ๊ธฐ๋ฐ ํ๊ฐ
- ๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ชจ๋ few-shot ์ค์ ์์ uni3d๊ฐ ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ํฐ ํญ์ผ๋ก ๋ฅ๊ฐํจ
- ์ ์ ๋ผ๋ฒจ ๋ฐ์ดํฐ ํ๊ฒฝ์์๋ ๋ฐ์ด๋ ์ ์ด ์ฑ๋ฅ์ ๊ฐ์ง
4.3. Open-World Understanding
- uni3d๊ฐ ์ค์ ์ธ๊ณ์ 3d ์ฅ๋ฉด๊ณผ ๋ฌผ์ฒด๋ฅผ ์ผ๋ง๋ ์ ์ดํดํ ์ ์๋์ง ํ๊ฐํจ
- ๋ฐ์ดํฐ์ : ScanNet- ์ค์ธ๊ณ์์ ์ค์บ๋ ์ค๋ด ์ฅ๋ฉด 1500๊ฐ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ 3d ๋ฐ์ดํฐ์
- ๋ชฉํ: ๊ฐ ๊ฐ์ฒด instance์ ์นดํ
๊ณ ๋ฆฌ๋ฅผ zero-shot ๋ฐฉ์์ผ๋ก ์ธ์
- instance segmentation x, category classification๋ง ํ๊ฐํจ
- ๊ธฐ์กด ๋ฐฉ๋ฒ ์ค ๋ค์๋ ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ก ์ถ๊ฐ ํ๋ จ๋จ (TP ๋ถ์ด์๋ ๊ฒ๋ค - real-world point cloud-image-text triplets๋ก ์ถ๊ฐํ์ตํจ)
- ๊ทผ๋ฐ uni3d๋ ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ฅผ ํ๋ฒ๋ ๋ณด์ง ์๊ณ ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ๋ จํ๋๋ฐ ๊ฐ์ฅ zero-shot ์ฑ๋ฅ์ด ๋์ โ ์ค์ธ๊ณ 3D generalization ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์
- why?
- uni3d๋ clip์ ๋๊ท๋ชจ real-world ๋ฉํฐ๋ชจ๋ฌ ์ง์์ ๊ฐ์ ธ์ด โ ๊ฐํ ์ค์ธ๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ถ์๊ธฐ ๋๋ฌธ
- ๋๊ท๋ชจ ์ค์ผ์ผ๋ง๋ ๋ชจ๋ธ ๋๋ถ์ ํํ capacity๊ฐ ํฌ๋ค
- instance segmentation๋ ๊ฒฐ๊ณผ๊ฐ ์ด๋ฏธ ์ ๊ณต์ด ๋๊ณ , ๊ฐ instance๋ฅผ zero-shot์ผ๋ก ๋ถ๋ฅํ ๊ฒฐ๊ณผ
4.4. Open-Vocabulary / few-shot part segmentation
- [part segmentation]
- 2d ๋ถ์ผ์์๋ clip์ vision-language ์ง์์ downstream task์ ์ ์ดํ๋ฉด ํด๋น task์ ์ฑ๋ฅ์ด ์ข์์ง๋ค๋ ์ฐ๊ตฌ๊ฐ ์ด๋ฏธ ์กด์ฌํจ - ํ์ง๋ง 3d์๋ ๊ทธ๋ฐ ์ฐ๊ตฌ ๊ฑฐ์ ์์
- 3d์์๋ clip ๊ธฐ๋ฐ ํํ์ ํตํด part segmentation ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆด ์ ์์์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํจ
- ๋ฐ์ดํฐ์ : shapenet
1-shot, 2-shot์ ์คํ ๊ฒฐ๊ณผ ๋น๊ต
- 1,2-shot์ ๊ฒฝ์ฐ์ pointBERT๋ฅผ ํฐ ์ฐจ์ด๋ก ์ด๊น
- ๋ฒ ์ด์ค๋ผ์ธ์ ํ์ต ๋ฐ์ดํฐ์ ์ 10~20%๋ก ๋๋ฆผ โ ๊ทธ๋๋ uni3d๊ฐ ๊ฑฐ์ ๋๋ถ๋ถ ๋ ์ฐ์ํ๋๋ผ~~
- ์ฆ, ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ 10~20%์ ๋ผ๋ฒจ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ ์์ค์ ์ฑ๋ฅ์ uni3d๋ 1-2 shot ๋ง์ผ๋ก ๋ฌ์ฑํจ
โ ๊ทธ์ ๋๋ก uni3d์ ํํ๋ ฅ์ด ๊ฐ๋ ฅํด์ task-specific supervision์ด ์ ์ด๋ task๋ฅผ ์ ์ํ๊ฐ๋ฅ
- [open-vocabulary part segmentation]
- ๋ฏธ๋ฆฌ ๋ณธ ์ ์๋ part ์ด๋ฆ์ ๋ํด์๋ ํํธ ์์ค์ ์๋ฏธ๋ฅผ ์ดํดํ๊ณ segmentationํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ ์คํ
- uni3d๊ฐ local 3d geometry + semantic cue๋ฅผ ์ธ๋ฐํ๊ฒ ์ดํดํ๋์ง
- 3d part-level ๊ฐ๋ ์ open vocab์ผ๋ก ์ผ๋ฐํํ ์ ์๋์ง
- ๊ฐ์ฒด ๋ด๋ถ์ ์ธ๋ถ part ์๋ฏธ๊น์ง open vocab์ผ๋ก ์ผ๋ฐํํ ์ ์๋์ง๋ฅผ ํ์ธ
- shapenet ๋ฐ์ดํฐ์
์ seen๊ณผ unseen์ผ๋ก ๋๋ (์นดํ
๊ณ ๋ฆฌ ๊ธฐ์ค seen๊ณผ unseen์ด ์๋ ๊ฒ)
- โUni3D๋ ์ผ๋ถ part ์ด๋ฆ์ ํ์ต ์ค์ ๋ณด๊ณ , ๋๋จธ์ง part ์ด๋ฆ์ ๋จ ํ ๋ฒ๋ ๋ณธ ์ ์์ด ํ ์คํธ ์ ์ฒ์ ๋ณธ๋คโ
- ๊ฒฐ๊ณผ์ ์ผ๋ก seen์์๋ ๋ฌผ๋ก , unseen์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์
- clip์์ ์ฆ๋ฅ๋ ์ค์ธ๊ณ ์ง์ ๋๋ถ์ ๊ฐ์ฒด ์ ์ฒด์ semantic๋ฟ๋ง ์๋๋ผ ํํธ ์์ค์ ์ ๊ตํ local 3d ํจํด๊น์ง ํํ ๋ด๋ถ์ ํ์ตํด๋ฒ๋ฆผโฆ
โ Uni3D๋ open vocab 3d part ์ธ์์ ํ ์ ์๋ ์ฒซ 3d foundation backbone
- ๋ฏธ๋ฆฌ ๋ณธ ์ ์๋ part ์ด๋ฆ์ ๋ํด์๋ ํํธ ์์ค์ ์๋ฏธ๋ฅผ ์ดํดํ๊ณ segmentationํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ ์คํ
4.5. Point cloud painting
- 3d ๊ฐ์ฒด์ ์ธ๋ฐํ semantic ํจํด์ ์ผ๋ง๋ ์ ์ดํดํ๊ณ ์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์๋ก์ด ์ฌ๋ก๋ฅผ ์ ์ํจ
- point cloud painting: ํ ์คํธ ํ๋กฌํํธ์ ๋ง๊ฒ pc์ ์์์ ์ต์ ํํ๋ ์์
- pc์ ์๋ฒ ๋ฉ๊ณผ text ํ๋กฌํํธ์ ์๋ฒ ๋ฉ ์ ์ฌ๋๊ฐ ์ต๊ณ ๊ฐ ๋๋๋ก rgb๊ฐ์ ์ต์ ํ
- ๋ฐ๋๋ ๋์์ pc์ rgb๊ฐ
- ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, prompt๊ฐ ํฌํจํ๋ ๋ณต์กํ ์๋ฏธ๋ฅผ ๋ฐ์ํด์ ์์ ์
ํ ์ ์์
- uni3d๊ฐ contrastive learning์ ํตํด์ ํ๋กฌํํธ ๋จ์์ ์๋ฏธ ๊ตฌ์กฐ๊น์ง ํ์ตํ์์ ๋ณด์ฌ์ค
4.6. Cross-modal Retrieval
- ๊ฒ์์ ๋ฉํฐ๋ชจ๋ฌ ์๋ฒ ๋ฉ ํ์ฉ โ ๋ด๊ฐ ํ๊ณ ์๋ applications!!
- ์ด๋ฏธ์ง, ํ ์คํธ, 3d๋ฅผ ํ ๊ณต๊ฐ์์ ๋น๊ต๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, 3d shape์ ๊ฒ์ํ ์ ์์
- ์ด๋ฏธ์ง โ 3d ๊ฒ์
- ํ์ต ๋ฐ์ดํฐ๋ ์ค์ฌ์ธ๋ฐ, ์ค์ธ๊ณ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ๋์ํจ~~
- ์ฒซ๋ฒ์งธ ์ด์ image to 3d ๊ฒ์
- ๋๋ฒ์งธ ์ด์ ๋ ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ๋ฃ๊ณ ์๋ฒ ๋ฉ ํ๊ท ์ผ๋ก ๊ฒ์
- ์ฌ๋ฌ signal์ ์ทจํฉํ ์ ์์์ ๋ณด์ฌ์ค
- ์ธ๋ฒ์งธ ์ด์ text-to-3d ๊ฒ์
4.7. Ablation Study
- ๊ธฐ๋ณธ ์ธํ
- 3d backbone: vit base
- backbone ์ด๊ธฐํ weight: EVA pretrained weights
- CLIP: EVA-CLIP-E
- ํ์ต ๋ฐ์ดํฐ: Ensembled (no-LVIS)
- Scaling up Model size
- ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ฉด ์ฑ๋ฅ์ด ์ผ๋ง๋ ์ข์์ง๋๊ฐ?
- ๊ตฌ์กฐ์ ์ผ๋ก ViT์ ๋์ผํ ํธ๋์คํฌ๋จธ๋ฅผ ์ฌ์ฉํจ
- ์์ ์ธ๊ธํ tiny, small, base, large, giant 5๋ฒ์ (์ด๋ฏธ์ง์์ ์ฌ์ฉํ ๊ทธ๋๋ก)
- ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก ์ฑ๋ฅ ํฅ์
- ํนํ giant ๋ชจ๋ธ์ ๊ฒฝ์ฐ๋ ์ด์ 3d ์ฐ๊ตฌ์์๋ ๋ถ๊ฐ๋ฅํ ์์ค์ representation ์ฑ๋ฅ์ ๋ณด์ฌ์ค
- Switching / scaling up CLIP teachers
- uni3d์ ์ฑ๋ฅ์ด ์ด๋ค clip ๋ชจ๋ธ์ ์ฌ์ฉํ๋๋์ ๋ฐ๋ผ์ ์ผ๋ง๋ ๋ฌ๋ผ์ง๋๊ฐ?
- clip์ด ๊ฐ๋ ฅํ ์๋ก uni3d๋ ๊ฐ๋ ฅํด์ง๋๊ฐ?
clip ๋์ openai-clip, openclip, eva-clip ๋ฑ ๋๊ท๋ชจ clip (openclip-bigG, eva-clip-e ..)
- clip์ด ๊ฐํ๋ฉด uni3d ์ฑ๋ฅ์ด ์ข์์ง โ ๊ฐ์ฅ ํฐ ํฌ๊ธฐ์ clip (๊ฐ์ฅ ๋ฐ ํ)์ ์ฌ์ฉํ์ ๋ ์ต๊ณ ์ฑ๋ฅ
- teacher๊ฐ ๊ฐํ ์๋ก 3d encoder์๊ฒ ์ ๋ฌ๋๋ semantic signal๋ ๋ ์ ๊ตํ๊ณ ํ๋ถํด์ง
- clip ๋ชจ๋ธ์ด ๋ฐ์ ํจ์ ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ฐ๊ธฐ๋ง ํ๋ฉด uni3d๋ ํจ๊ป ์ฑ๋ฅ์ด ํฅ์๋ ์ ์๋ค๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค
- Initializing Transformer
- uni3d๋ฅผ ์ด๋ค ๋ฐฉ์์ผ๋ก ์ด๊ธฐํํ๋๋๊ฐ ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ์ฃผ๋๊ฐ?
- ์ด๊ธฐํ x, 2d pretrained vit (DINO, EVA), ๋ฉํฐ๋ชจ๋ฌ clip (EVA-CLIP), EVA + freeze vit - EVA๋ก ์ด๊ธฐํํ๋ backbone์ freeze, fine-tuning ์์ด ์ฌ์ฉ
DINO,EVA-CLIP,EVA์ธ ๊ฐ์ง ๋ชจ๋ ์ด๊ธฐ ๊ฐ์ค์น๋ก ์ฌ์ฉํ ๋ค Uni3D ๋ฐฉ์์ผ๋ก ๋ค์ ํ์ต(fine-tuning)ํ ๊ฒฐ๊ณผ- eva๊ฐ ๊ฐ์ฅ ์ข์, eva + freeze vit๊ฐ ๊ฐ์ฅ ๋ฎ์ โ 2d pretrained ๋ฐฑ๋ณธ์ ๊ณ ์ ํด์ ์ฐ๋ฉด ์๋จ (fine tuning์ด ํ์)
Conclusion
- uni3d๋ 3d ๋ชจ๋ธ์ 1b ๋จ์ ๊ท๋ชจ๋ก ํ์ฅํ ํตํฉ ํ๋ ์์ํฌ์
- 3d ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์๋ก ์ค๊ณํ๋๊ฒ ์๋๋ผ ViT๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์์ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํจ
- vit ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ?
- 2d์์ ์ด๋ฏธ ํ๋ฆฝ๋ scaling up ์ ๋ต์ ๊ทธ๋๋ก ์ฌ์ฉํ ์ ์์
- 2d pretrained ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํ๋ก ์ฌ์ฉ ๊ฐ๋ฅํจ
- vit ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ?
- ํ์ต ๋ฐ์ดํฐ๋ 1m 3d, 10m ์ด๋ฏธ์ง, 70m ํ
์คํธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํจ
- pc feature๋ฅผ ์ด๋ฏธ ์ ์ ๋ ฌ๋ image-text ํผ์ฒ ๊ณต๊ฐ์ ์ ์ ๋ ฌํ๋ ค๊ณ ํจ
- ์ฌ๋ฌ task์ ์์ด์ SOTA๋ฅผ ์ฐ์ โ 3D ๋ฉํฐ๋ชจ๋ฌ foundation model์














