NExT-Chat

为了提高视觉理解水平，最近的研究通过将对象边界框坐标表示为一系列文本序列（pix2seq），使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式，称为pix2emb方法，要求LMM...

2023-12-30 813

微信公众号