亚马逊发表BASE TTS,首个语音大模型,语音智能涌现,10亿参数10万小时语料
“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”
语言大模型和视觉大模型发展如火如荼,语音大模型却迟迟未见踪影...
UC伯克利发表大世界模型,上下文长度可达100万Token
“WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION”
世界包含丰富的信息,人类在理解世界时需要整理来自文字、图片、声音等多个维度的信息,单纯...
华为推出业界最大的中文文生图模型PanGu-Draw
“PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion”
华为诺亚方舟实验室推出业界最大的...
SceneVerse:百万级别的3D视觉语言数据集,3D场景理解新SOTA
“SCENEVERSE: Scaling 3D Vision-Language Learning for Grounded Scene Understanding”
项目主页:https://scene-verse.github.io
论文地址:https://arxiv.org/pdf/2...
字节发表Boximator,为视频合成生成丰富和可控的运动,可以控制由图片生成的视频中物体的运动轨迹
本文提出了一种用于细粒度运动控制的新方法Boximator。Boximator可以控制由图片生成的视频中物体的运动轨迹。先圈出图片中的主体,再圈出要移动到位置,即可生成主体从...
腾讯发表VideoDrafter,一次性生成多个场景的视频
VideoCrafter 由腾讯ai实验室和香港科技大学主导,同时也有来自中国科学院、香港中文大学和香港城市大学的研究人员参与。是一款全新的视频生成模型,可以进行创建和编...
字节发表Magic-Me,仅需几张图片即可实现特定人物的AI视频生成
在文本到图像生成(T2I)领域,主题驱动的内容生成已经取得了巨大的进展,图像中的ID是可控的。然而,直接将其扩展到视频生成还没有得到很好的探索。
本文提出一种简单...
OpenAI官方技术报告,揭秘Sora最强视频生成模型
近日,OpenAI推出其首个文生视频大模型Sora,能生成长达1分钟的高清视频,效果炸裂,OpenAI又一次引起业界轰动。
Sora到底是怎么实现的?其中包含了那些秘籍呢?接...
字节发表DiffusionGPT,结合思维树和大模型Agent实现文生图
“DiffusionGPT: LLM-Driven Text-to-Image Generation System”
项目主页:https://DiffusionGPT.github.io
论文地址:https://arxiv.org/pdf/2401.10061.pdf
Github地...
百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当
“UNIVG: TOWARDS UNIFIED-MODAL VIDEO GENERATION”
百度发表UNiVG,在MSR-VTT数据库上实现了最低的FVD,在人类评估方面超越了当前的开源方法,并且与当前的闭源方法Gen2...