ContorlNet作者的研究!LayerDiffusion可生成商业素材级别透明PNG图片
用于生成图像的大规模模型已经成为计算机视觉的基础而图形,令人惊讶的是,很少有研究关注分层内容生成或透明图像生成。这种情况与巨大的市场需求形成鲜明对比。
ContorlNet的作者研究了一款...
快手发表Direct-a-Video,国产AI导演,自定义视频生成
近日,港城大、快手、天大联合发表Direct-a-Video,成功解耦AI生成视频中物体运动和摄像机运动,让视频生成的灵活性和可控性大大增强!
项目主页:https://direct-a-vi...
微软和谷歌的大神教你如何写提示词!!!
Design2Code项目:从设计到代码的无缝转换
近日,斯坦福大学、佐治亚理工学院、微软和谷歌DeepMind的研究人员联合推出了一项名为Design2Code的项目。这一创新项目探讨了多模态大语言模型在...
Sora摸不着,但是咱有平替(Stable Diffusion进阶篇:AnimateDiff动画插件)
比起之前所学习和讲到过的Runway、Pika之类的AI视频生成工具,Sora所呈现出来的效果是真的远远超出人们的预期。Sora生成的视频无论是体流畅度、动作的幅度还是多镜头展示已经惊艳到让人们产...
Midjourney 如何图生图?垫图大核心
很多时候生成的图片虽然惊艳,
但离我们想要的内容还是有一些差距。
因为单纯的提示词是很难完全还原你的想法,
想象一下,
你用语言和朋友描述一个不太熟悉的东西时,
对方是不是也很难想象...
港大开发V-IRL平台:将真实世界地图纳入虚拟环境 给AI Agent完整的一生!
近日,港大和NYU的研究团队合作开发了一个名为V-IRL的平台,该平台将真实世界的地图、街景等丰富信息融入到虚拟环境中,为AI Agent提供了更真实和完整的生活体验。
这项研究的核心在于构建一...
Meta发表基于大模型的视频剪辑工具 LAVE,开始使用 Agent 剪视频了!
这几天,OpenAI推出的视频生成工具 Sora 火爆出圈,生成的视频可以以假乱真。然而,很多时候直接生成的视频难以满足需求,需要二次剪辑。目前视频剪辑依然主要依赖人工...
DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地
DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语...
Stable Diffusion 3 惊艳亮相,可生成图像真假难辨!
大模型领域,每家公司都在争分夺秒。在文生图这条赛道上,面对 Midjourney、DALL-E 的围攻,2 月 22 日,初创公司 Stability AI 宣布推出下一代 AI 图像生成器——Stable Diffusion 3(简称 SD...
亚马逊发表BASE TTS,首个语音大模型,语音智能涌现,10亿参数10万小时语料
“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data”
语言大模型和视觉大模型发展如火如荼,语音大模型却迟迟未见踪影...