“AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling” 现实世界是多模态的,生物体间通过视觉、语言、声音和触觉等多种方式感知和交换信息。近日,复旦大...
2024-03-06 630

为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
2023-12-30 567

“VideoPoet: A Large Language Model for Zero-Shot Video Generation”   近日,谷歌推出了全新的 AI 视频生成模型 VideoPoet。VideoPoet可以执行多种视频生成任务,...
2023-12-21 493

自从人工智能诞生以来,科技巨头们就在不断探索如何利用这个强大的工具改变世界,在图像生成、语音识别、自然语言处理等领域取得突破后,人工智能的下一个目标就是视频生成。 回看过去几个...
2023-12-20 577

“StoryGPT-V: Large Language Models as Consistent Story Visualizers”   目前,大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V,利用潜扩散(LDM)和LLM...
2023-12-19 666
显示验证码