复旦发表AnyGPT,多模态大模型的通用框架,实现任意模态输入输出,支持图像、音乐、文本、语音
“AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling”
现实世界是多模态的,生物体间通过视觉、语言、声音和触觉等多种方式感知和交换信息。近日,复旦大...
NUS&清华发表NExT-Chat,对话、检测、分割多模态大模型
为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
谷歌多模态大模型VideoPoet,可生成无限长视频,效果惊人
“VideoPoet: A Large Language Model for Zero-Shot Video Generation”
近日,谷歌推出了全新的 AI 视频生成模型 VideoPoet。VideoPoet可以执行多种视频生成任务,...
谷歌重磅发布零样本视频生成模型!10秒生成视频,效果碾压顶流Gen-2
自从人工智能诞生以来,科技巨头们就在不断探索如何利用这个强大的工具改变世界,在图像生成、语音识别、自然语言处理等领域取得突破后,人工智能的下一个目标就是视频生成。
回看过去几个...
StoryGPT-V,可以生成漫画故事的多模态大模型
“StoryGPT-V: Large Language Models as Consistent Story Visualizers”
目前,大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V,利用潜扩散(LDM)和LLM...