自从人工智能诞生以来,科技巨头们就在不断探索如何利用这个强大的工具改变世界,在图像生成、语音识别、自然语言处理等领域取得突破后,人工智能的下一个目标就是视频生成。
回看过去几个月,RunWay的Gen-2、Pika Lab的Pika 1.0,国内大厂等大波视频生成模型纷纷涌现,不断迭代升级。这不,RunWay一大早就宣布Gen-2支持文本转语音的功能了,可以为视频创建画外音。
当然,谷歌在视频生成上也不甘落后,先是与斯坦福李飞飞团队共同发布了W.A.L.T,用Transformer生成的逼真视频引来大波关注。
最近谷歌团队又发布了一个全新的视频生成模型VideoPoet,而且无需特定数据便可生成视频。
最令人惊叹的是,VideoPoet一次能够生成10秒超长,且连贯大动作视频,完全碾压Gen-2仅有小幅动作的视频生成。
另外,与领先模型不同的是,VideoPoet并非基于扩散模型,而是多模态大模型,便可拥有T2V、V2A等能力,或将成为未来视频生成的主流。
下面我们直接看下更多的生成效果吧!
文本到视频生成:
图像到视频生成:
当前,Gen-2、Pika 1.0视屏生成的表现足以惊人,但是遗憾的是,无法在连贯大幅动作的视频生成上表现惊艳。
通常,它们在产生较大动作时,视频会出现明显的伪影。
对此,谷歌研究人员提出了VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化、视频修复/扩展和视频到音频等多样的视频生成任务。
具体来看VideoPoet的能力非常全面。包括:
文本–视频;
图像–视频;
视频编辑;
风格化处理;
画面补充;
文本到视频任务,视频输出长度可调整,而且可以基于文本内容应用一系列动作和风格。
概括来说,VideoPoet比起Gen-2等视频生成模型,具备以下三大优势。
更长的视频
VideoPoet通过对视频的最后1秒进行调节,并预测接下来的1秒,就可以生成更长的视频。
通过反复循环,VideoPoet通不仅可以很好地扩展视频,而且即使在多次迭代中,也能忠实地保留所有对象的外观。
精准的控制
视频生成应用一个非常重要的能力在于,对于生成的动态效果,用户有多大的控制能力。
这将很大程度上决定了模型能否被用来制作复杂连贯的长视频。
VideoPoet不但可以为输入的图像通过文字描述来添加动态效果,并通过文本提示来调整内容,来达到预期的效果。
除了支持输入图像的视频编辑,视频输入也可以通过文字进行精确控制。
针对最左边的小浣熊跳舞视频,用户可以通过文字描述不同的舞姿来让它跳不同的舞蹈。
运镜的手法
VideoPoet还可以通过在文本提示中,附加所需的运镜方式,来精确控制画面的变化。
例如,研究人员通过模型生成了一幅图像,提示为「冒险游戏概念图,雪山日出,清澈河流」。下面的示例将给定的文本后缀添加到所需的动作中。
从目前的情况来看,VideoPoet在生成速度和视频质量上都具有一定的优势。
然而,要想在竞争激烈的市场中站稳脚跟,VideoPoet还需要不断优化和升级。
首先,谷歌需要继续加大在大型语言模型领域的研发力度,提高VideoPoet的理解能力和生成质量。
其次,谷歌还需要完善VideoPoet的生态系统,吸引更多的开发者加入,推出更多创新性的应用。
但谷歌全新视频生成模型VideoPoet的问世,再次证明了人工智能在视频生成领域的巨大潜力。
尽管面临众多竞争对手的挑战,但谷歌VideoPoet凭借其在生成速度和视频质量上的优势,有望在竞争中脱颖而出。
对于未来的研究方向,谷歌研究人员表示,VideoPoet框架将会实现「any-to-any」的生成,比如扩展文本到音频、音频到视频,以及视频字幕等等。
网友不禁发问,Runway和Pika能否抵挡住谷歌和OpenAI即将推出的文本到视频创新技术?
评论0