Efficiently Reconstructing Dynamic Scenes Oneย ๐ŸŽฏ D4RTย at a Time

Efficiently Reconstructing Dynamic Scenes Oneย ๐ŸŽฏ D4RTย at a Time
  • CVPR 2026 Best Paper
  • ๊ตฌ๊ธ€ ๋”ฅ๋งˆ์ธ๋“œ ๋“ฑ

๋ฐฐ๊ฒฝ

  • 3d ์žฌ๊ตฌ์„ฑ ์—ฐ๊ตฌ์˜ ๋ฐœ์ „
    • ์ฃผ๋กœ ์ •์ ์ธ ์žฅ๋ฉด์„ ๋Œ€์ƒ์œผ๋กœ ๋ฐœ์ „ํ•ด์˜ด, ์ตœ๊ทผ์—๋Š” vggt์™€ ๊ฐ™์€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ feed-forward ๋ฐฉ์‹ ๋“ฑ์žฅ
  • ํ•˜์ง€๋งŒ ์‹ค์ œ ์„ธ๊ณ„๋Š” ๋™์ ์ธ ํ™˜๊ฒฝ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ
    • ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ๋™์  ๊ฐ์ฒด๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ๋ณต์› x, ๊นŠ์ด, ์นด๋ฉ”๋ผ ํฌ์ฆˆ, ํŠธ๋ž˜ํ‚น ๋“ฑ์„ ๊ฐ๊ฐ ๋‹ค๋ฅธ ๋ชจ๋“ˆ๋กœ ์ฒ˜๋ฆฌ
  • ๋ณธ ์—ฐ๊ตฌ๋Š” **๋™์  ์žฅ๋ฉด์— ๋Œ€ํ•œ 4d ์ดํ•ด๋ฅผ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์ˆ˜ํ–‰ํ•˜๋ฉด์„œ๋„ ๋†’์€ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์ธ D4RT๋ฅผ ์ œ์•ˆ**ํ•จ

๋ฐฉ๋ฒ•

image.png

  • ์ž…๋ ฅ ๋น„๋””์˜ค โ†’ Transformer encoder โ†’ global scene representation ์ƒ์„ฑ
  • Decoder๋Š” ์ด global ํ‘œํ˜„์„ ์‚ฌ์šฉํ•ด์„œ ์›ํ•˜๋Š” ์œ„์น˜์™€ ์‹œ์ ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ queryํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘
  • ๊ธฐ์กด ๋ฐฉ๋ฒ• - ๋ชจ๋“  ํ”„๋ ˆ์ž„์˜ ๋ชจ๋“  ํ”ฝ์…€์„ ์ผ๊ด€์ ์œผ๋กœ ๋ณต์›ํ•˜๋Š” dense decoding ์‚ฌ์šฉ
  • D4RT๋Š” ํ•„์š”ํ•œ ์œ„์น˜๋งŒ ์„ ํƒ์ ์œผ๋กœ ์งˆ์˜ํ•˜๋Š” query-based decoding์„ ๋„์ž…ํ•ด์„œ ๊ณ„์‚ฐ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์ž„
    • query - ์†Œ์Šค ํ”„๋ ˆ์ž„์˜ 2d ์œ„์น˜, ์†Œ์Šค ์‹œ์ , ๋ชฉํ‘œ ์‹œ์ , ๊ธฐ์ค€ ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„
    • ๋””์ฝ”๋”๋Š” ํ•ด๋‹น ์ฟผ๋ฆฌ์— ํ•ด๋‹นํ•˜๋Š” 3d ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•จ
  • ์ด ๋ฐฉ์‹์„ ๊ธฐ์ค€์œผ๋กœ ์„ค์ •ํ•˜๊ณ , ์—ฌ๋Ÿฌ ๋‹ค์–‘ํ•œ task๋ฅผ ์ˆ˜ํ–‰๊ฐ€๋Šฅํ•จ
    • ๋ชฉํ‘œ ์‹œ์  ๋ณ€ํ™” โ†’ 3d point track
    • ๋ชจ๋“  ํ”ฝ์…€์— ๋Œ€ํ•ด์„œ query โ†’ 3d point cloud
    • ๋™์ผ ์‹œ์ ์— ๋Œ€ํ•ด์„œ query โ†’ depth map์„ ๋ณต์› ๊ฐ€๋Šฅ
    • ์˜ˆ์ธก๋œ 3d ์ ๋“ค ๊ฐ„์˜ ๊ธฐํ•˜ํ•™์  ๊ด€๊ณ„๋ฅผ ์ด์šฉ โ†’ ์นด๋ฉ”๋ผ ์™ธ/๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”์ • ๊ฐ€๋Šฅ
  • decoder ์ž…๋ ฅ์— query ์œ„์น˜ ์ฃผ๋ณ€์˜ 9x9 rgb ํŒจ์น˜๋ฅผ ์ถ”๊ฐ€ํ•ด์„œ ์ง€์—ญ์ ์ธ ์™ธํ˜• ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์˜€์Œ
  • ์ถ”๋ก  ๋‹จ๊ณ„ - ๋ชจ๋“  ํ”ฝ์…€์„ ์ถ”์ ํ•˜๊ธฐ ์œ„ํ•œ โ€œํšจ์œจ์ ์ธโ€ dense tracking ์•Œ๊ณ ๋ฆฌ์ฆ˜๋„ ํ•จ๊ป˜ ์ œ์•ˆ
    • ์ด๋ฏธ ๋ฐฉ๋ฌธํ•œ ์‹œ๊ณต๊ฐ„ ์œ„์น˜๋ฅผ occupancy grid๋กœ ๊ด€๋ฆฌํ•ด์„œ ๋ถˆํ•„์š”ํ•œ query๋ฅผ ์ค„์ž„

๊ธฐ์—ฌ์ 

  • ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” ๋™์  ์žฅ๋ฉด์˜ 4d ์žฌ๊ตฌ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•˜๋‚˜์˜ query ๊ธฐ๋ฐ˜ ์ธํ„ฐํŽ˜์ด์Šค๋กœ ํ†ตํ•ฉํ–ˆ๋‹ค๋Š” ๊ฒƒ
  • ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ๊นŠ์ด ์ถ”์ •, ์นด๋ฉ”๋ผ ํฌ์ฆˆ ์ถ”์ •, ๋™์  ๋Œ€์‘ ๊ด€๊ณ„ ์ถ”์ ์„ ๋ณ„๋„ ๋ชจ๋“ˆ๋กœ ์ฒ˜๋ฆฌํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, D4RT๋Š” ํ•˜๋‚˜์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ˆ˜ํ–‰
  • Query๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๋งค์šฐ ๋†’์€ ์ถ”๋ก  ํšจ์œจ์„ฑ์„ ํ™•๋ณด, ์‹ค์ œ ์‹คํ—˜์—์„œ ๊ธฐ์กด ์ตœ์‹  ๊ธฐ๋ฒ• ๋Œ€๋น„ ์ตœ๋Œ€ ์ˆ˜๋ฐฑ๋ฐฐ ๋น ๋ฅธ ์†๋„๋ฅผ ๋ณด์ด๋ฉด์„œ๋„ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ƒˆ๋กœ์šด sota ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ
  • d4rt๋Š” ์ •์  ์žฅ๋ฉด ์ค‘์‹ฌ์˜ ๊ธฐ์กด 3d recon์„ ๋„˜์–ด์„œ, ์‹ค์ œ ์„ธ๊ณ„์˜ ๋™์  ํ™˜๊ฒฝ์„ ํ†ตํ•ฉ์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํšจ์œจ์ ์ด๊ณ  ํ™•์žฅ์„ฑ ๋†’์€ 4d scene recon ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์˜€์Œ

โ†’ VGGT๋ฅผ ๋™์  ์žฅ๋ฉด + correspondence๊นŒ์ง€ ํ™•์žฅํ•œ ๋ฒ„์ „

  • ์›”๋“œ๋ชจ๋ธ์ด๋‚˜ 4d ์ƒ์„ฑํ˜• ๋ชจ๋ธ < vggt์˜ ์—ฐ์žฅ์„ ์— ์ž‡๋Š” feed-forward 4d recon ๋ชจ
This post is licensed under CC BY 4.0 by the author.