Efficiently Reconstructing Dynamic Scenes Oneย ๐ฏ D4RTย at a Time
Efficiently Reconstructing Dynamic Scenes Oneย ๐ฏ D4RTย at a Time
- CVPR 2026 Best Paper
- ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋ ๋ฑ
๋ฐฐ๊ฒฝ
- 3d ์ฌ๊ตฌ์ฑ ์ฐ๊ตฌ์ ๋ฐ์
- ์ฃผ๋ก ์ ์ ์ธ ์ฅ๋ฉด์ ๋์์ผ๋ก ๋ฐ์ ํด์ด, ์ต๊ทผ์๋ vggt์ ๊ฐ์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ feed-forward ๋ฐฉ์ ๋ฑ์ฅ
- ํ์ง๋ง ์ค์ ์ธ๊ณ๋ ๋์ ์ธ ํ๊ฒฝ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋์ ๊ฐ์ฒด๋ฅผ ์ผ๊ด๋๊ฒ ๋ณต์ x, ๊น์ด, ์นด๋ฉ๋ผ ํฌ์ฆ, ํธ๋ํน ๋ฑ์ ๊ฐ๊ฐ ๋ค๋ฅธ ๋ชจ๋๋ก ์ฒ๋ฆฌ
- ๋ณธ ์ฐ๊ตฌ๋ **๋์ ์ฅ๋ฉด์ ๋ํ 4d ์ดํด๋ฅผ ํ๋์ ํตํฉ๋ ํ๋ ์์ํฌ์์ ์ํํ๋ฉด์๋ ๋์ ํจ์จ์ฑ์ ์ ์งํ ์ ์๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ธ D4RT๋ฅผ ์ ์**ํจ
๋ฐฉ๋ฒ
- ์ ๋ ฅ ๋น๋์ค โ Transformer encoder โ global scene representation ์์ฑ
- Decoder๋ ์ด global ํํ์ ์ฌ์ฉํด์ ์ํ๋ ์์น์ ์์ ์ ๋ํ ์ ๋ณด๋ฅผ queryํ๋ ๋ฐฉ์์ผ๋ก ๋์
- ๊ธฐ์กด ๋ฐฉ๋ฒ - ๋ชจ๋ ํ๋ ์์ ๋ชจ๋ ํฝ์ ์ ์ผ๊ด์ ์ผ๋ก ๋ณต์ํ๋ dense decoding ์ฌ์ฉ
- D4RT๋ ํ์ํ ์์น๋ง ์ ํ์ ์ผ๋ก ์ง์ํ๋ query-based decoding์ ๋์
ํด์ ๊ณ์ฐ๋์ ํฌ๊ฒ ์ค์
- query - ์์ค ํ๋ ์์ 2d ์์น, ์์ค ์์ , ๋ชฉํ ์์ , ๊ธฐ์ค ์นด๋ฉ๋ผ ์ขํ๊ณ
- ๋์ฝ๋๋ ํด๋น ์ฟผ๋ฆฌ์ ํด๋นํ๋ 3d ์์น๋ฅผ ์์ธกํจ
- ์ด ๋ฐฉ์์ ๊ธฐ์ค์ผ๋ก ์ค์ ํ๊ณ , ์ฌ๋ฌ ๋ค์ํ task๋ฅผ ์ํ๊ฐ๋ฅํจ
- ๋ชฉํ ์์ ๋ณํ โ 3d point track
- ๋ชจ๋ ํฝ์ ์ ๋ํด์ query โ 3d point cloud
- ๋์ผ ์์ ์ ๋ํด์ query โ depth map์ ๋ณต์ ๊ฐ๋ฅ
- ์์ธก๋ 3d ์ ๋ค ๊ฐ์ ๊ธฐํํ์ ๊ด๊ณ๋ฅผ ์ด์ฉ โ ์นด๋ฉ๋ผ ์ธ/๋ด๋ถ ํ๋ผ๋ฏธํฐ ์ถ์ ๊ฐ๋ฅ
- decoder ์ ๋ ฅ์ query ์์น ์ฃผ๋ณ์ 9x9 rgb ํจ์น๋ฅผ ์ถ๊ฐํด์ ์ง์ญ์ ์ธ ์ธํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์์
- ์ถ๋ก ๋จ๊ณ - ๋ชจ๋ ํฝ์
์ ์ถ์ ํ๊ธฐ ์ํ โํจ์จ์ ์ธโ dense tracking ์๊ณ ๋ฆฌ์ฆ๋ ํจ๊ป ์ ์
- ์ด๋ฏธ ๋ฐฉ๋ฌธํ ์๊ณต๊ฐ ์์น๋ฅผ occupancy grid๋ก ๊ด๋ฆฌํด์ ๋ถํ์ํ query๋ฅผ ์ค์
๊ธฐ์ฌ์
- ํต์ฌ ๊ธฐ์ฌ๋ ๋์ ์ฅ๋ฉด์ 4d ์ฌ๊ตฌ์ฑ ๋ฌธ์ ๋ฅผ ํ๋์ query ๊ธฐ๋ฐ ์ธํฐํ์ด์ค๋ก ํตํฉํ๋ค๋ ๊ฒ
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ๊น์ด ์ถ์ , ์นด๋ฉ๋ผ ํฌ์ฆ ์ถ์ , ๋์ ๋์ ๊ด๊ณ ์ถ์ ์ ๋ณ๋ ๋ชจ๋๋ก ์ฒ๋ฆฌํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, D4RT๋ ํ๋์ ํ๋ ์์ํฌ๋ก ์ํ
- Query๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ตฌ์กฐ๋ฅผ ํตํด ๋งค์ฐ ๋์ ์ถ๋ก ํจ์จ์ฑ์ ํ๋ณด, ์ค์ ์คํ์์ ๊ธฐ์กด ์ต์ ๊ธฐ๋ฒ ๋๋น ์ต๋ ์๋ฐฑ๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ด๋ฉด์๋ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ์๋ก์ด sota ์ฑ๋ฅ์ ๋ฌ์ฑํจ
- d4rt๋ ์ ์ ์ฅ๋ฉด ์ค์ฌ์ ๊ธฐ์กด 3d recon์ ๋์ด์, ์ค์ ์ธ๊ณ์ ๋์ ํ๊ฒฝ์ ํตํฉ์ ์ผ๋ก ์ดํดํ ์ ์๋ ํจ์จ์ ์ด๊ณ ํ์ฅ์ฑ ๋์ 4d scene recon ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์
โ VGGT๋ฅผ ๋์ ์ฅ๋ฉด + correspondence๊น์ง ํ์ฅํ ๋ฒ์
- ์๋๋ชจ๋ธ์ด๋ 4d ์์ฑํ ๋ชจ๋ธ < vggt์ ์ฐ์ฅ์ ์ ์๋ feed-forward 4d recon ๋ชจ
This post is licensed under CC BY 4.0 by the author.
