Press
esc
to close
请输入并搜索
Carottx's site
Carottx's site
首页
标签
分类
时间线
友链
关于
Press
Ctrl
+
and
K
to search
技术杂谈
生活
首页
标签
分类
时间线
友链
关于
后台
3d重建论文阅读
编辑
2026-01-26
技术杂谈
0
0
目录
D4RT
VGGT
D4RT
https://d4rt-paper.github.io/
一句话总结: 用一个Encoder得到视频的
Representation
, 再用轻量化的Decoder查询对应像素的3d位置,实现3维重建。
训练形式:
Encoder得到
Global Scene Representation
F
Decoder的Query使用
(
u
,
v
,
t
s
r
c
,
t
t
g
t
,
t
c
a
m
)
(u,v,t_{src},t_{tgt},t_{cam})
(
u
,
v
,
t
src
,
t
t
g
t
,
t
c
am
)
,对F进行查询
(
u
,
v
,
t
s
r
c
)
(u,v,t_{src})
(
u
,
v
,
t
src
)
代表在
t
s
r
c
t_{src}
t
src
时刻的图像的
(
u
,
v
)
(u,v)
(
u
,
v
)
像素
(
t
t
g
t
,
t
c
a
m
)
(t_{tgt},t_{cam})
(
t
t
g
t
,
t
c
am
)
代表希望查询这个像素的点在
t
t
g
t
t_{tgt}
t
t
g
t
时刻在
t
c
a
m
t_{cam}
t
c
am
相机坐标系下的点
好处: 监督信号的提供较为容易,推理时可以平行推理
VGGT
https://arxiv.org/abs/2503.11651
一句话总结: 在加入
Camera Token
后用交替注意力得到表示,用不同的head解码
Camera Ex/Intrinics/point map/depth map..
训练形式:
Camera/Depth maps/Point maps都是稠密的,即一次forward全部算出来
Point Tracking得到的是feature,再用下游方法进行追踪。
AI
论文阅读
< Diffusion Model&Flow Matching
目录
D4RT
VGGT