灵度智能

亚马逊发表BASE TTS，首个语音大模型，语音智能涌现，10亿参数10万小时语料

“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data” 语言大模型和视觉大模型发展如火如荼，语音大模型却迟迟未见踪影...

2024-02-24 725

UC伯克利发表大世界模型，上下文长度可达100万Token

人工智能·头条

“WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RINGATTENTION” 世界包含丰富的信息，人类在理解世界时需要整理来自文字、图片、声音等多个维度的信息，单纯...

2024-02-24 671

华为推出业界最大的中文文生图模型PanGu-Draw

人工智能·头条

“PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion” 华为诺亚方舟实验室推出业界最大的...

2024-02-22 637

SceneVerse：百万级别的3D视觉语言数据集，3D场景理解新SOTA

人工智能·头条

“SCENEVERSE: Scaling 3D Vision-Language Learning for Grounded Scene Understanding” 项目主页：https://scene-verse.github.io 论文地址：https://arxiv.org/pdf/2...

2024-02-19 626

字节发表Boximator，为视频合成生成丰富和可控的运动，可以控制由图片生成的视频中物体的运动轨迹

人工智能·头条

本文提出了一种用于细粒度运动控制的新方法Boximator。Boximator可以控制由图片生成的视频中物体的运动轨迹。先圈出图片中的主体，再圈出要移动到位置，即可生成主体从...

2024-02-19 533

腾讯发表VideoDrafter，一次性生成多个场景的视频

人工智能·头条

VideoCrafter 由腾讯ai实验室和香港科技大学主导，同时也有来自中国科学院、香港中文大学和香港城市大学的研究人员参与。是一款全新的视频生成模型，可以进行创建和编...

2024-02-18 750

字节发表Magic-Me，仅需几张图片即可实现特定人物的AI视频生成

人工智能·头条

在文本到图像生成(T2I)领域，主题驱动的内容生成已经取得了巨大的进展，图像中的ID是可控的。然而，直接将其扩展到视频生成还没有得到很好的探索。本文提出一种简单...

2024-02-18 526

OpenAI官方技术报告，揭秘Sora最强视频生成模型

人工智能·头条

近日，OpenAI推出其首个文生视频大模型Sora，能生成长达1分钟的高清视频，效果炸裂，OpenAI又一次引起业界轰动。 Sora到底是怎么实现的？其中包含了那些秘籍呢？接...

2024-02-18 597

字节发表DiffusionGPT，结合思维树和大模型Agent实现文生图

人工智能·头条

“DiffusionGPT: LLM-Driven Text-to-Image Generation System” 项目主页：https://DiffusionGPT.github.io 论文地址：https://arxiv.org/pdf/2401.10061.pdf Github地...

2024-01-29 630

百度发表UNiVG，统一模式视频生成系统，超越所有开源方法，与Gen2相当

人工智能·头条

“UNIVG: TOWARDS UNIFIED-MODAL VIDEO GENERATION” 百度发表UNiVG，在MSR-VTT数据库上实现了最低的FVD，在人类评估方面超越了当前的开源方法，并且与当前的闭源方法Gen2...

2024-01-29 658

亚马逊发表BASE TTS，首个语音大模型，语音智能涌现，10亿参数10万小时语料

UC伯克利发表大世界模型，上下文长度可达100万Token

华为推出业界最大的中文文生图模型PanGu-Draw

SceneVerse：百万级别的3D视觉语言数据集，3D场景理解新SOTA

字节发表Boximator，为视频合成生成丰富和可控的运动，可以控制由图片生成的视频中物体的运动轨迹

腾讯发表VideoDrafter，一次性生成多个场景的视频

字节发表Magic-Me，仅需几张图片即可实现特定人物的AI视频生成

OpenAI官方技术报告，揭秘Sora最强视频生成模型

字节发表DiffusionGPT，结合思维树和大模型Agent实现文生图

百度发表UNiVG，统一模式视频生成系统，超越所有开源方法，与Gen2相当

微信公众号

客服微信