3d重建论文阅读

esc

请输入并搜索

Ctrl+K

3d重建论文阅读

2026-01-26

00

请注意，本文编写于 99 天前，最后修改于 54 天前，其中某些信息可能已经过时。

目录

D4RT

https://d4rt-paper.github.io/
一句话总结: 用一个Encoder得到视频的Representation, 再用轻量化的Decoder查询对应像素的3d位置，实现3维重建。

训练形式：
- Encoder得到Global Scene RepresentationF
- Decoder的Query使用 $(u,v,t_{src},t_{tgt},t_{cam})$ ,对F进行查询
  - $(u,v,t_{src})$ 代表在 $t_{src}$ 时刻的图像的 $(u,v)$ 像素
  - $(t_{tgt},t_{cam})$ 代表希望查询这个像素的点在 $t_{tgt}$ 时刻在 $t_{cam}$ 相机坐标系下的点
- 好处: 监督信号的提供较为容易，推理时可以平行推理

VGGT

https://arxiv.org/abs/2503.11651
一句话总结: 在加入Camera Token后用交替注意力得到表示，用不同的head解码Camera Ex/Intrinics/point map/depth map..

训练形式：
- Camera/Depth maps/Point maps都是稠密的，即一次forward全部算出来
- Point Tracking得到的是feature,再用下游方法进行追踪。

< Diffusion Model&Flow Matching

Qwen3.5微调中数值精度问题 >

目录