时值圣诞季,OpenAI 首席执行官萨姆・阿尔特曼化身“圣诞老人”在自己的 X 平台账号上发文征求网友们 2024 年对 OpenAI 的愿望与期待:“你希望 OpenAI 明年新增或修复哪些功能?”。这条帖子...
2024-01-02 540

为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
2023-12-30 635

目前的多模态大语言模型未能在像素级实现细粒度的视觉-语言对齐,基于掩码的指令数据的缺乏限制了它们的进步。本文提出Osprey,通过将细粒度掩码区域合并到语言指令中来扩...
2023-12-30 729

2023 年是大模型之年。 大模型代表了人工智能领域的重大进步,有史以来第一次人类真正看见了通用人工智能(AGI)的曙光。然而,关于大模型,我们了解得并不多。 以 OpenAI 首席科学家 Ily...
2023-12-28 761

“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models” 近日,旷视发表了Vary,可以一键识别图片中的文本、公式、表格,并输出成markdown格式。...
2023-12-28 1.3k

“StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation”     近日,UC Berkeley、日本筑波大学、MIT联合发表了StreamDiffusion,一...
2023-12-27 653

所以我今天找到了一个比较简单粗糙但也挺好玩的AI生成网站,与Stable Diffusion只生成图片不同,这个网站还可以生成视频。 https://www.genmo.ai/create/image 这个的使用原理和其他的AI...
2023-12-27 613

NO.1 工信部:将加强Web3.0技术研究和监管,就Web3.0开展国际交流合作并加大技术宣传和推广 12月20日,据工信部在对全国政协十四届一次会议第02969号提案的答复,除了此前报道...
2023-12-26 556

在数字化浪潮中,腾讯与德州大学达拉斯分校的研究团队,共同翻开了智能科技的新篇章。他们共同发布的《AppAgent: Multimodal Agents as Smartphone Users》论文,不仅是学术探索的成果,更...
2023-12-26 455

“HUGS: Human Gaussian Splats” 创建一个赛博虚拟人分身需要多久?现在只需半个小时即可实现!近日,苹果发布了3D数字人生成模型HUGS,可以从一段30分钟内的视频当中提...
2023-12-26 738
显示验证码