用于生成图像的大规模模型已经成为计算机视觉的基础而图形,令人惊讶的是,很少有研究关注分层内容生成或透明图像生成。这种情况与巨大的市场需求形成鲜明对比。 ContorlNet的作者研究了一款...
2024-03-06 483

近日,港城大、快手、天大联合发表Direct-a-Video,成功解耦AI生成视频中物体运动和摄像机运动,让视频生成的灵活性和可控性大大增强! 项目主页:https://direct-a-vi...
2024-03-06 526

Design2Code项目:从设计到代码的无缝转换 近日,斯坦福大学、佐治亚理工学院、微软和谷歌DeepMind的研究人员联合推出了一项名为Design2Code的项目。这一创新项目探讨了多模态大语言模型在...
2024-03-06 554

比起之前所学习和讲到过的Runway、Pika之类的AI视频生成工具,Sora所呈现出来的效果是真的远远超出人们的预期。Sora生成的视频无论是体流畅度、动作的幅度还是多镜头展示已经惊艳到让人们产...
2024-03-06 1.02k

很多时候生成的图片虽然惊艳, 但离我们想要的内容还是有一些差距。 因为单纯的提示词是很难完全还原你的想法, 想象一下, 你用语言和朋友描述一个不太熟悉的东西时, 对方是不是也很难想象...
2024-03-06 626

近日,港大和NYU的研究团队合作开发了一个名为V-IRL的平台,该平台将真实世界的地图、街景等丰富信息融入到虚拟环境中,为AI Agent提供了更真实和完整的生活体验。 这项研究的核心在于构建一...
2024-03-06 454

这几天,OpenAI推出的视频生成工具 Sora 火爆出圈,生成的视频可以以假乱真。然而,很多时候直接生成的视频难以满足需求,需要二次剪辑。目前视频剪辑依然主要依赖人工...
2024-02-26 1.23k

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语...
2024-02-26 702

大模型领域,每家公司都在争分夺秒。在文生图这条赛道上,面对 Midjourney、DALL-E 的围攻,2 月 22 日,初创公司 Stability AI 宣布推出下一代 AI 图像生成器——Stable Diffusion 3(简称 SD...
2024-02-26 737

“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data” 语言大模型和视觉大模型发展如火如荼,语音大模型却迟迟未见踪影...
2024-02-24 721
显示验证码