灵度智能

“VideoPoet: A Large Language Model for Zero-Shot Video Generation” 近日，谷歌推出了全新的 AI 视频生成模型 VideoPoet。VideoPoet可以执行多种视频生成任务，...

2023-12-21 497

“SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration” Google、图宾根大学联合提出SMERF，支持实时大场景视图合成，实现大场...

2023-12-20 895

本文介绍了一种名为RTMO的实时多人姿态估计框架，它采用了一种无缝集成坐标分类的方法，使用双1-D热图来表示关键点，同时在保持高速度的同时实现了与两阶段自顶向下方法相当的准确性...

2023-12-19 721

“StoryGPT-V: Large Language Models as Consistent Story Visualizers” 目前，大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V，利用潜扩散（LDM）和LLM...

2023-12-19 672

“EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM” 尽管SAM性能优异，但是运行速度慢，且难以在移动端运行。近日，洋理工大学联合上海AI Lab发表了Edge...

2023-12-19 807

“GenZI: Zero-Shot 3D Human-Scene Interaction Generation” 给定任意 3D 场景，GenZI 利用视觉语言模型（VLM）的强大能力，可以根据简...

2023-12-19 523

“WonderJourney: Going from Anywhere to Everywhere” 近日，斯坦福大学联合谷歌联合发表了WonderJourney，只需单张图像即可生成无限连续3D...

2023-12-19 692

微信公众号