编辑
2026-01-26
技术杂谈
00

目录

D4RT
VGGT

D4RT

  • https://d4rt-paper.github.io/
  • 一句话总结: 用一个Encoder得到视频的Representation, 再用轻量化的Decoder查询对应像素的3d位置,实现3维重建。

  • 训练形式:
    • Encoder得到Global Scene RepresentationF
    • Decoder的Query使用(u,v,tsrc,ttgt,tcam)(u,v,t_{src},t_{tgt},t_{cam}),对F进行查询
      • (u,v,tsrc)(u,v,t_{src})代表在tsrct_{src}时刻的图像的(u,v)(u,v)像素
      • (ttgt,tcam)(t_{tgt},t_{cam})代表希望查询这个像素的点在ttgtt_{tgt}时刻在tcamt_{cam}相机坐标系下的点
    • 好处: 监督信号的提供较为容易,推理时可以平行推理

VGGT

  • https://arxiv.org/abs/2503.11651
  • 一句话总结: 在加入Camera Token后用交替注意力得到表示,用不同的head解码Camera Ex/Intrinics/point map/depth map..

  • 训练形式:
    • Camera/Depth maps/Point maps都是稠密的,即一次forward全部算出来
    • Point Tracking得到的是feature,再用下游方法进行追踪。