我需要微调一个多模态大模型,为了压缩图片输入的token数量,防止上下文数量过长导致训练时间和效果变差,在多模态大模型的Vision Encoder后加入一个模块用于把每张图片的token数压缩至32个.
Vision Encoder
回忆版
在具身智能成为国家新型发展战略的当下,本文尝试完整梳理具身智能的技术路线。