AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改
视频到视频编辑涉及编辑源视频和附加属性(如文本提示、主题或样式),以生成与源视频和提供的控件一致的新视频。传统方法受限于特定的编辑类型,限制了其满足用...
阿里推出Wear-Any-Way,可控虚拟试衣最新方案,一键试穿,想穿什么穿什么
淘宝买衣服的时候不知道上身效果如何?想知道衣服穿在模特身上和穿在自己身上效果有什么区别?今天我们来看看阿里最新推出的虚拟试衣方法Wear-Any-Way,不仅可以试穿衣...
Stability AI发布3D生成模型TripoSR 不用1秒就能生成高质量3D模型
Stability AI 和 Tripo AI 昨晚联合发布了一款名为 TripoSR 的3D 生成模型。这款模型能够在不到1秒的时间内生成高质量的3D 模型,这一创新技术的推出无疑将为3D 建模领域带来革命性的变革。...
Gen4Gen:数据驱动多概念组合图像数据生成方法
摘要
目前个性化文本到图像扩散模型中的两个问题:多个概念的个性化技术不可靠,以及缺乏综合评估性能的度量标准。为了解决这些问题,作者提出了Gen4Gen数据集...
GitHub又火了一款AI工具 DUSt3R :2张图2秒钟3D 重建
一款名为 DUSt3R 的 AI 工具近日在 GitHub 上备受瞩目,其能够在短短2秒钟内通过仅有2张图片完成3D 重建,让许多网友大呼惊奇,甚至认为这比之前热门的 Sora 更加实用。这一工具在单目 / 多...
阿里巴巴推出高保真图像到视频生成框架AtomoVideo
近日,阿里巴巴在人工智能领域再次取得突破,推出了一款名为AtomoVideo的高保真图像到视频生成框架。这一技术的问世,标志着基于文本到图像生成技术的视频生成领域取得了显著的快速发展。
...
Sora引领AI视频革命:九大创新盈利模式,让创意赚钱变得轻而易举
一、Sora简介
Sora是由OpenAI开发的一款先进的文本转视频AI模型,最近在业界引起了广泛的关注。尽管当前尚未对所有人开放使用权限,但其前瞻性的创新令人充满期待。此类技术将变革人们在...
复旦发表AnyGPT,多模态大模型的通用框架,实现任意模态输入输出,支持图像、音乐、文本、语音
“AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling”
现实世界是多模态的,生物体间通过视觉、语言、声音和触觉等多种方式感知和交换信息。近日,复旦大...
港中文发布SongComposer,音乐创作大模型,让大模型进行歌词和旋律创作
“SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation”
创作一首歌曲包含歌词和旋律两部分,对于人类而言,能掌握其中一样已经...
Stable Diffusion进阶篇:AnimateDiff 动画插件2
(请先看上一篇AnimateDiff的内容,本篇是进阶参数学习)
在上篇笔记中学习了一下什么是AnimateDiff(以下简称AD)以及其简单的操作流程,至少看完上篇笔记之后就可以简单制作出一个小动画...