近日,阿里巴巴在人工智能领域再次取得突破,推出了一款名为AtomoVideo的高保真图像到视频生成框架。这一技术的问世,标志着基于文本到图像生成技术的视频生成领域取得了显著的快速发展。
据官方介绍,AtomoVideo的核心在于其多粒度图像注入技术,这一技术使得生成的视频对于给定的图像具有更高的保真度。这意味着,通过AtomoVideo生成的视频,能够更好地保留原始图像的细节和特征,从而使得生成的视频更加逼真。目前,阿里只发布了AtomoVideo的论文,代码,试玩页面等还未公布。
项目地址:https://huggingface.co/papers/2403.01800
此外,AtomoVideo还得益于高质量的数据集和训练策略,这使得其在保持卓越的时间性的同时,实现了更大的运动强度,一致性和稳定性。这意味着,无论是在动作的连贯性,还是在动作的稳定性上,AtomoVideo都能表现出色。
AtomoVideo的架构也具有很高的灵活性,它可以灵活地扩展到视频帧预测任务,通过迭代生成实现长序列预测。这使得AtomoVideo在处理长序列的视频预测任务时,也能够保持良好的性能。
值得一提的是,由于适配器训练的设计,AtomoVideo可以很好地与现有的个性化模型和可控模块结合。这使得AtomoVideo在实际应用中,可以根据需要进行个性化定制,以满足不同用户的需求。
不过从AK大神发布的演示来看,AtomoVideo生成的视频质量和sora相比差距较大,和SVD相比也有一些差距,希望后续会有更大的提升吧。
评论0