清华大学

清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。 CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出...

2024-01-02 780

“CoSeR: Bridging Image and Language for Cognitive Super-Resolution” 图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像，从而提高图像的清晰度。现有的超分...

2024-01-02 1.45k

为了提高视觉理解水平，最近的研究通过将对象边界框坐标表示为一系列文本序列（pix2seq），使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式，称为pix2emb方法，要求LMM...

2023-12-30 813

“CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models” 说起角色扮演，大家首先想到的实什么呢？动漫展上的cosplay小姐姐...

2023-12-22 1.57k

前言当提到人工智能照片修复时，你或许会联想到像SD这样的生成式模型。但是，仅靠生成模型并不总能够提供理想的结果，因为这些模型有时会过度发挥其"想象力"，产生的图...

2023-12-19 2.48k

微信公众号