谷歌重磅发布零样本视频生成模型！10秒生成视频，效果碾压顶流Gen-2

自从人工智能诞生以来，科技巨头们就在不断探索如何利用这个强大的工具改变世界，在图像生成、语音识别、自然语言处理等领域取得突破后，人工智能的下一个目标就是视频生成。

回看过去几个月，RunWay的Gen-2、Pika Lab的Pika 1.0，国内大厂等大波视频生成模型纷纷涌现，不断迭代升级。这不，RunWay一大早就宣布Gen-2支持文本转语音的功能了，可以为视频创建画外音。

《谷歌重磅发布零样本视频生成模型！10秒生成视频，效果碾压顶流Gen-2》- 投稿作者:探我 - 发布于:GetAI社区

当然，谷歌在视频生成上也不甘落后，先是与斯坦福李飞飞团队共同发布了W.A.L.T，用Transformer生成的逼真视频引来大波关注。

最近谷歌团队又发布了一个全新的视频生成模型VideoPoet，而且无需特定数据便可生成视频。

最令人惊叹的是，VideoPoet一次能够生成10秒超长，且连贯大动作视频，完全碾压Gen-2仅有小幅动作的视频生成。

另外，与领先模型不同的是，VideoPoet并非基于扩散模型，而是多模态大模型，便可拥有T2V、V2A等能力，或将成为未来视频生成的主流。

下面我们直接看下更多的生成效果吧！

文本到视频生成：

图像到视频生成：

画面逼真动作稳定

当前，Gen-2、Pika 1.0视屏生成的表现足以惊人，但是遗憾的是，无法在连贯大幅动作的视频生成上表现惊艳。

通常，它们在产生较大动作时，视频会出现明显的伪影。

《谷歌重磅发布零样本视频生成模型！10秒生成视频，效果碾压顶流Gen-2》- 投稿作者:探我 - 发布于:GetAI社区

对此，谷歌研究人员提出了VideoPoet，能够执行包括文本到视频、图像到视频、视频风格化、视频修复/扩展和视频到音频等多样的视频生成任务。

具体来看VideoPoet的能力非常全面。包括：

文本–视频；

图像–视频；

视频编辑；

风格化处理；

画面补充；

文本到视频任务，视频输出长度可调整，而且可以基于文本内容应用一系列动作和风格。

三大优势

概括来说，VideoPoet比起Gen-2等视频生成模型，具备以下三大优势。

更长的视频

VideoPoet通过对视频的最后1秒进行调节，并预测接下来的1秒，就可以生成更长的视频。

通过反复循环，VideoPoet通不仅可以很好地扩展视频，而且即使在多次迭代中，也能忠实地保留所有对象的外观。

精准的控制

视频生成应用一个非常重要的能力在于，对于生成的动态效果，用户有多大的控制能力。

这将很大程度上决定了模型能否被用来制作复杂连贯的长视频。

VideoPoet不但可以为输入的图像通过文字描述来添加动态效果，并通过文本提示来调整内容，来达到预期的效果。

除了支持输入图像的视频编辑，视频输入也可以通过文字进行精确控制。

针对最左边的小浣熊跳舞视频，用户可以通过文字描述不同的舞姿来让它跳不同的舞蹈。

运镜的手法

VideoPoet还可以通过在文本提示中，附加所需的运镜方式，来精确控制画面的变化。

例如，研究人员通过模型生成了一幅图像，提示为「冒险游戏概念图，雪山日出，清澈河流」。下面的示例将给定的文本后缀添加到所需的动作中。

从目前的情况来看，VideoPoet在生成速度和视频质量上都具有一定的优势。

《谷歌重磅发布零样本视频生成模型！10秒生成视频，效果碾压顶流Gen-2》- 投稿作者:探我 - 发布于:GetAI社区

然而，要想在竞争激烈的市场中站稳脚跟，VideoPoet还需要不断优化和升级。

首先，谷歌需要继续加大在大型语言模型领域的研发力度，提高VideoPoet的理解能力和生成质量。

其次，谷歌还需要完善VideoPoet的生态系统，吸引更多的开发者加入，推出更多创新性的应用。

但谷歌全新视频生成模型VideoPoet的问世，再次证明了人工智能在视频生成领域的巨大潜力。

《谷歌重磅发布零样本视频生成模型！10秒生成视频，效果碾压顶流Gen-2》- 投稿作者:探我 - 发布于:GetAI社区

尽管面临众多竞争对手的挑战，但谷歌VideoPoet凭借其在生成速度和视频质量上的优势，有望在竞争中脱颖而出。

对于未来的研究方向，谷歌研究人员表示，VideoPoet框架将会实现「any-to-any」的生成，比如扩展文本到音频、音频到视频，以及视频字幕等等。

网友不禁发问，Runway和Pika能否抵挡住谷歌和OpenAI即将推出的文本到视频创新技术？

谷歌重磅发布零样本视频生成模型！10秒生成视频，效果碾压顶流Gen-2

评论0

微信公众号

客服微信

谷歌重磅发布零样本视频生成模型！10秒生成视频，效果碾压顶流Gen-2

猜你喜欢

评论0