清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成
“CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization”
游戏建模需要专业的人员,消耗大量时间完成。近...
微软推出Mora,对标Sora,多项测评超越开源SOTA,效果接近Sora
“Mora: Enabling Generalist Video Generation via A Multi-Agent Framework”
Sora的爆火带动了AI视频生成的关注,然而闭源的Sora为后续研究带来了挑战。为了解...
AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改
视频到视频编辑涉及编辑源视频和附加属性(如文本提示、主题或样式),以生成与源视频和提供的控件一致的新视频。传统方法受限于特定的编辑类型,限制了其满足用...
阿里推出Wear-Any-Way,可控虚拟试衣最新方案,一键试穿,想穿什么穿什么
淘宝买衣服的时候不知道上身效果如何?想知道衣服穿在模特身上和穿在自己身上效果有什么区别?今天我们来看看阿里最新推出的虚拟试衣方法Wear-Any-Way,不仅可以试穿衣...
Gen4Gen:数据驱动多概念组合图像数据生成方法
摘要
目前个性化文本到图像扩散模型中的两个问题:多个概念的个性化技术不可靠,以及缺乏综合评估性能的度量标准。为了解决这些问题,作者提出了Gen4Gen数据集...
复旦发表AnyGPT,多模态大模型的通用框架,实现任意模态输入输出,支持图像、音乐、文本、语音
“AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling”
现实世界是多模态的,生物体间通过视觉、语言、声音和触觉等多种方式感知和交换信息。近日,复旦大...
港中文发布SongComposer,音乐创作大模型,让大模型进行歌词和旋律创作
“SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation”
创作一首歌曲包含歌词和旋律两部分,对于人类而言,能掌握其中一样已经...
快手发表Direct-a-Video,国产AI导演,自定义视频生成
近日,港城大、快手、天大联合发表Direct-a-Video,成功解耦AI生成视频中物体运动和摄像机运动,让视频生成的灵活性和可控性大大增强!
项目主页:https://direct-a-vi...
Meta发表基于大模型的视频剪辑工具 LAVE,开始使用 Agent 剪视频了!
这几天,OpenAI推出的视频生成工具 Sora 火爆出圈,生成的视频可以以假乱真。然而,很多时候直接生成的视频难以满足需求,需要二次剪辑。目前视频剪辑依然主要依赖人工...
DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地
DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语...