“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data” 语言大模型和视觉大模型发展如火如荼,语音大模型却迟迟未见踪影...
2024-02-24 725

“WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION” 世界包含丰富的信息,人类在理解世界时需要整理来自文字、图片、声音等多个维度的信息,单纯...
2024-02-24 671

“PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion” 华为诺亚方舟实验室推出业界最大的...
2024-02-22 637

“SCENEVERSE: Scaling 3D Vision-Language Learning for Grounded Scene Understanding” 项目主页:https://scene-verse.github.io 论文地址:https://arxiv.org/pdf/2...
2024-02-19 626

本文提出了一种用于细粒度运动控制的新方法Boximator。Boximator可以控制由图片生成的视频中物体的运动轨迹。先圈出图片中的主体,再圈出要移动到位置,即可生成主体从...
2024-02-19 533

VideoCrafter 由腾讯ai实验室和香港科技大学主导,同时也有来自中国科学院、香港中文大学和香港城市大学的研究人员参与。是一款全新的视频生成模型,可以进行创建和编...
2024-02-18 750

在文本到图像生成(T2I)领域,主题驱动的内容生成已经取得了巨大的进展,图像中的ID是可控的。然而,直接将其扩展到视频生成还没有得到很好的探索。 本文提出一种简单...
2024-02-18 526

近日,OpenAI推出其首个文生视频大模型Sora,能生成长达1分钟的高清视频,效果炸裂,OpenAI又一次引起业界轰动。 Sora到底是怎么实现的?其中包含了那些秘籍呢?接...
2024-02-18 597

“DiffusionGPT: LLM-Driven Text-to-Image Generation System” 项目主页:https://DiffusionGPT.github.io 论文地址:https://arxiv.org/pdf/2401.10061.pdf Github地...
2024-01-29 630

“UNIVG: TOWARDS UNIFIED-MODAL VIDEO GENERATION” 百度发表UNiVG,在MSR-VTT数据库上实现了最低的FVD,在人类评估方面超越了当前的开源方法,并且与当前的闭源方法Gen2...
2024-01-29 658
显示验证码