谷歌多模态大模型VideoPoet,可生成无限长视频,效果惊人
“VideoPoet: A Large Language Model for Zero-Shot Video Generation”
近日,谷歌推出了全新的 AI 视频生成模型 VideoPoet。VideoPoet可以执行多种视频生成任务,...
谷歌发布SMERF,实时大场景视图合成,可移动设备上流畅运行
“SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration”
Google、图宾根大学联合提出SMERF,支持实时大场景视图合成,实现大场...
RTMO:最强姿态识别模型,超越YOLO-pose
本文介绍了一种名为RTMO的实时多人姿态估计框架,它采用了一种无缝集成坐标分类的方法,使用双1-D热图来表示关键点,同时在保持高速度的同时实现了与两阶段自顶向下方法相当的准确性...
StoryGPT-V,可以生成漫画故事的多模态大模型
“StoryGPT-V: Large Language Models as Consistent Story Visualizers”
目前,大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V,利用潜扩散(LDM)和LLM...
EdgeSAM:可以运行在移动设备上的轻量化SAM,iPhone 14运行速度达到38 FPS,速读提升40倍
“EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM”
尽管SAM性能优异,但是运行速度慢,且难以在移动端运行。近日,洋理工大学联合上海AI Lab发表了Edge...
GenZI:零样本3D人体-场景交互生成方法
“GenZI: Zero-Shot 3D Human-Scene Interaction Generation”
给定任意 3D 场景,GenZI 利用视觉语言模型(VLM)的强大能力,可以根据简...
斯坦福&谷歌 | WonderJourney:AI带你梦游仙境,单张图即可生成无限连续3D场景
“WonderJourney: Going from Anywhere to Everywhere”
近日,斯坦福大学联合谷歌联合发表了WonderJourney,只需单张图像即可生成无限连续3D...