目前的多模态大语言模型未能在像素级实现细粒度的视觉-语言对齐,基于掩码的指令数据的缺乏限制了它们的进步。本文提出Osprey,通过将细粒度掩码区域合并到语言指令中来扩...
2023-12-30 488
显示验证码