清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。 CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出...
2024-01-02 538

“CoSeR: Bridging Image and Language for Cognitive Super-Resolution”   图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度。现有的超分...
2024-01-02 1.07k

为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
2023-12-30 567

“CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models”   说起角色扮演,大家首先想到的实什么呢?动漫展上的cosplay小姐姐...
2023-12-22 1.1k

前言 当提到人工智能照片修复时,你或许会联想到像SD这样的生成式模型。但是,仅靠生成模型并不总能够提供理想的结果,因为这些模型有时会过度发挥其"想象力",产生的图...
2023-12-19 1.78k
显示验证码