视觉语言模型

清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。 CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出...

2024-01-02 540

微信公众号