多模态大模型

“AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling” 现实世界是多模态的，生物体间通过视觉、语言、声音和触觉等多种方式感知和交换信息。近日，复旦大...

2024-03-06 933

为了提高视觉理解水平，最近的研究通过将对象边界框坐标表示为一系列文本序列（pix2seq），使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式，称为pix2emb方法，要求LMM...

2023-12-30 819

“VideoPoet: A Large Language Model for Zero-Shot Video Generation” 近日，谷歌推出了全新的 AI 视频生成模型 VideoPoet。VideoPoet可以执行多种视频生成任务，...

2023-12-21 664

自从人工智能诞生以来，科技巨头们就在不断探索如何利用这个强大的工具改变世界，在图像生成、语音识别、自然语言处理等领域取得突破后，人工智能的下一个目标就是视频生成。回看过去几个...

2023-12-20 836

“StoryGPT-V: Large Language Models as Consistent Story Visualizers” 目前，大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V，利用潜扩散（LDM）和LLM...

2023-12-19 959

微信公众号