让AI画出一个睡前故事(AI工具篇:Pixel Dance)

学习Stable Diffusion到现在绝大部分都是关于如何去优化生图质量、效率和减少对设备的压力,关于让图片的动起来的文章寥寥无几,到现在我也只有几篇笔记是关于如何制作AI视频的。

开发出了经典文生图模型Stable Diffusion的公司Stability.ai也发布了开源视频生成模型Stable Video Diffusion(SVD),不过目前SVD的论文中也提到了目前SVD生成的视频存在动态性不足的情况。

而另一家AI视频生成的探索者Runway升级了其Gen-2模型的清晰度并且得到了惊人的一致性,但是这种视频的一致性是以牺牲了视频的动态性为代价,就算是Meta公司的Emu Video也无法兼顾两者。

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

就目前看来生成高度一致性且有丰富动态性的视频是目前视频生成领域中最大的调整,这里的视频生成不是那种将一个视频拆分重绘后重组的那种。

而在今年的11月21日,Pixel Dance展示了其最新的成果-远超其他现有模型的动态性。

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

https://makepixelsdance.github.io/

甚至还有B站账号:https://www.bilibili.com/video/BV1j94y1H7Hm/?buvid=YA40DAA4C1939E574402B8753701AF310CFF&is_story_h5=false&mid=kOiE12ow6Llv%2F70nN%2FnaBw%3D%3D&plat_id=147&share_from=ugc&share_medium=iphone&share_plat=ios&share_session_id=2576C9EE-EC33-458F-AAA1-108F9E8A8822&share_source=COPY&share_tag=s_i&timestamp=1700297509&unique_k=HvSnPHL&up_id=245771980&vd_source=a5d5f36fa93049aa21aa60fe9824d708

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

这个短片是完全由AI生成的!

在其官网上有着两种视频生成模式介绍,第一种是Basic mode也就是基础模式。

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

这种模式只需要用户提供一张参考图再输入文本描述,Pixel Dance就可以生成有高度一致性且有丰富动态性的视频,其中的指导图片可以是网上找的真实图片也可以是用AI的文生图模型生成。

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

 

而第二种的则是Magic mode魔法模式,这种模式会给予用户更多发挥想象力和创造力的空间。这种模式只需要提供两张指导图片+文本描述,就可以生成更有难度的视频内容,不单单只是让图片动起来。

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

而最令人关注的一点是Pixel Dance可以按照用户预想的一个故事来制作对应的场景和动作,无论是现实存在的场景还是虚幻构建出来的都能生成细节和动作都非常丰富的视频,甚至连特效也可以。

本来我以为要达到这样的视频生成效果需要依赖庞大的数据集和大规模的 模型训练,而Pixel Dance公开的WebVid-10数据集仅用了1.5B大小的模型。

在论文中作者指出视频生成难以做出好效果的原因:

相较于图片生成,视频生成具有特征空间更大,动作更多样性的特点,这也是之前为什么学习ebsynth需要的是时长短且动作幅度小的视频。

针对这样的问题Pixel Dance提出了给予文本指导+首尾帧图片指导的视频生成方式,使得模型更关注和学习视频的动态信息。

第一帧的视频给了大致的框架和素材,然后文本信息提供了给视频动作的描述,最后一帧图片给整个视频提供了结束状态的信息。

就目前而言Pixel Dance还处于一个封测迭代的状态中,或许在未来就会放出可以公测的模型,希望那一天能早点到来!


 

今天的内容就到这里结束啦!

这个Pixel Dance还是很让人期待的,毕竟之前的视频生成耗时长、对设备要求也高,怪麻烦的。

当然技术还在不断地迭代中,相信一个人人都能将自己的故事变为电影的时代很快就会到来!

大伙下篇笔记见啦!拜了个拜!

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

《让AI画出一个睡前故事(AI工具篇:Pixel Dance)》- 投稿作者:简历白纸一张 - 发布于:GetAI社区

eririspencer, <lora:eriritest:1>,

eriri sawamura spencer, blonde hair, blue eyes, blunt bangs, hair ribbon, hime cut, long hair, twintails, (small breast:1.2),

BREAK black ribbon, black skirt, black thighhighs, pleated skirt, ribbon, school uniform, skirt, zettai ryouiki,

BREAK looking at viewer,

BREAK indoors, classroom,

BREAK <lora:GoodHands-vanilla:1>, (masterpiece:1.2), best quality, high resolution, unity 8k wallpaper, (illustration:0.8), (beautiful detailed eyes:1.6), extremely detailed face, perfect lighting, extremely detailed CG, (perfect hands, perfect anatomy),

 

Negative prompt: 

easynegative,ng_deepnegative_v1_75t,

verybadimagenegative_v1.3,

  • Steps: 30

  • Sampler: Euler a

  • CFG scale: 7

  • Seed: 30208397

  • Size: 512×512

  • Model hash: e4a30e4607

  • Model: majicmixRealistic_v6

  • Denoising strength: 0.7

  • Clip skip: 2, ENSD: 31337

  • Hires upscale: 2

  • Hires upscaler: R-ESRGAN 4x+

  • TI hashes: “EasyNegative: c74b4e810b03

  • EasyNegative: c74b4e810b03″

  • Version: v1.6.0-2-g4afaaf8a0

 

部分文章参考素材:

视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效_澎湃号·湃客_澎湃新闻-The Paper

 

SVD:

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

 

PD官网:https://makepixelsdance.github.io/

 

B站视频:

https://www.bilibili.com/video/BV1j94y1H7Hm/?buvid=YA40DAA4C1939E574402B8753701AF310CFF&is_story_h5=false&mid=kOiE12ow6Llv%2F70nN%2FnaBw%3D%3D&plat_id=147&share_from=ugc&share_medium=iphone&share_plat=ios&share_session_id=2576C9EE-EC33-458F-AAA1-108F9E8A8822&share_source=COPY&share_tag=s_i&timestamp=1700297509&unique_k=HvSnPHL&up_id=245771980&vd_source=a5d5f36fa93049aa21aa60fe9824d708

 

论文链接:

https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

 

Github:

https://github.com/Stability-AI/generative-models

 

Hugging face链接:

https://huggingface.co/papers/2311.10982

 

 

 

1

评论0

请先
显示验证码