清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。 CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出...
2024-01-02 540
显示验证码