清华大学开发出新视觉语言模型 可更准确理解 GUI
清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。
CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出...
清华&华为发表CoSeR,基于认知的万物超分模型,和马赛克说拜拜
“CoSeR: Bridging Image and Language for Cognitive Super-Resolution”
图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度。现有的超分...
NUS&清华发表NExT-Chat,对话、检测、分割多模态大模型
为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
清华发表CharacterGLM,基于大模型的AI角色定制
“CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models”
说起角色扮演,大家首先想到的实什么呢?动漫展上的cosplay小姐姐...
DiffBIR-新一代超分技术,免费开源的照片修复工具
前言
当提到人工智能照片修复时,你或许会联想到像SD这样的生成式模型。但是,仅靠生成模型并不总能够提供理想的结果,因为这些模型有时会过度发挥其"想象力",产生的图...