为了解决这个问题,Meta提出利用大语言模型来进行视频剪辑,并探讨了未来的视频剪辑范式,从而减少与手动视频剪辑过程的阻碍。让我们来看看这个视频剪辑的新思路。
论文地址:https://arxiv.org/pdf/2402.10294.pdf
摘要
本文介绍了一种名为LAVE的视频编辑系统,它将大型语言模型(LLMs)整合到视频编辑工作流中,以降低初学者的编辑门槛。LAVE通过自动生成语言描述来为用户的素材提供基础,使LLM能够处理视频并协助编辑任务。用户可以通过代理或直接UI操作来编辑视频,提供灵活性并允许代理操作的手动调整。研究表明,LAVE对用户的创造力和共创感有积极影响。作者提出了设计建议,以指导未来代理辅助内容编辑的发展。
简介
作者提出了一种基于自然语言处理的视频编辑工具LAVE,它可以帮助用户生成编辑想法、浏览和查找相关片段,并将它们序列化以形成一个引人入胜的叙述。LAVE使用LLM的语言能力,如故事叙述和推理,来协助用户完成编辑任务。作者进行了一项用户研究,结果表明LAVE可以有效地帮助用户进行视频编辑,并提高他们的创造力和人工智能协作感。该研究为未来的多媒体内容编辑工具的开发提供了设计启示。
本文介绍了LAVE系统的概念和实现,该系统利用LLM的语言智能来促进代理辅助的视频编辑体验。同时,还设计了基于LLM的计算流水线,使LAVE的视频编辑代理能够规划和执行一系列编辑功能,以帮助用户实现编辑目标。通过用户研究,发现了将LLM与视频编辑相结合的优点和挑战,并提出了未来代理辅助内容编辑的设计建议。
相关工作
语言作为视频编辑的媒介
传统的视频编辑工具需要手动操作原始片段,界面复杂,语言作为一种直观高效的替代方案已经被研究。一种常见的方法是将语言视为“命令”,但现有的工作主要支持单轮交互,不适应多样化的语言和长期对话。另一种方法是将语言视为“内容”,但这些技术要么依赖于视频中的现有语言内容,要么需要用户提供语言注释,而LAVE则自动生成每个视频的语言描述,并利用LLM的语言能力自动化和促进内容编辑。最近的生成AI技术将生成新的镜头,而LAVE的目标是促进现有视频的编辑。
大语言模型和代理
本文介绍了基于大规模语言模型(LLMs)的智能代理技术在交互式视频编辑中的应用。LLMs可以通过prompting技术适应新任务,具有高效性和适应性。先前的研究已经探索了使用LLMs开发代理与各种环境进行自主交互的可能性。本文提出了一种代理架构,可以根据用户的指令计划和执行相关的编辑操作。
人类和AI共同创造
AI在创作过程中的应用越来越广泛,涵盖了故事写作、音乐创作、漫画创作和游戏设计等领域。虽然AI可以提升用户的创造能力,但也带来了一些挑战和问题,如用户代理和信任、创作的真实性、潜在的创作偏见以及所有权和归属问题。本研究通过开发一个新的基于LLM的视频编辑AI系统,并通过LAVE的视角研究用户与该系统的交互动态,探讨了这种编辑范式的机遇和挑战。
设计目标
这项工作旨在通过设计、实施和评估LAVE系统,探索人类和LLM代理在视频编辑中的协作体验潜力。为此,我们提出了两个主要设计目标作为系统设计的指导原则。D1. 利用自然语言降低编辑门槛。本工作的核心命题是通过利用自然语言和LLM的智能,增强手动视频编辑范式。我们旨在设计LAVE以降低用户的编辑门槛,从初始构思到编辑操作都利用自然语言和LLM的智能。D2. 在编辑过程中保留用户的主动性。关于AI辅助内容编辑的一个常见担忧是可能丧失用户的自主性和控制权。为了缓解这一担忧,我们设计了LAVE系统,提供了AI辅助和手动编辑选项。这使用户可以根据需要进行调整或选择不使用AI辅助,从而保留用户的主动性。这确保了最终产品能够反映用户的艺术愿景,并赋予他们决策权。
LAVE用户界面
LAVE系统的UI由三个主要组件组成:1)语言增强视频库,显示带有自动生成的语言描述的视频镜头;2)视频编辑时间轴,包含编辑的主时间轴;3)视频编辑代理,使用户能够与对话代理进行交互并获得帮助。用户可以通过光标直接与库和时间轴进行交互。这些组件与设计目标密切相关。
LAVE是一个视频编辑系统,支持从视频库中选择视频并添加到编辑时间轴中。时间轴上的每个视频片段都由三个缩略图表示,可以使用LLM或手动方式进行剪辑和排序。剪辑可以通过双击视频片段并选择关键帧进行操作。LAVE还支持预览和撤销功能。
- LAVE编辑代理提供了两种视频剪辑功能:基于LLM的剪辑和手动剪辑。
- 基于LLM的剪辑可以根据用户的指令提取视频片段,指令可以是自由形式的,可以涉及视频的语义内容或具体的剪辑细节。
- LLM还会解释其剪辑的理由,以保证透明度。
- 手动剪辑允许用户通过点击缩略图来定义剪辑的起始和结束点,并可以对基于LLM的剪辑进行微调。
LAVE的视频编辑代理是一个基于聊天的组件,可以通过自由形式的语言与用户交互,提供视频编辑帮助。代理操作分为计划和执行两种模式,支持四种编辑功能:素材概述、创意头脑风暴、视频检索和故事板。用户可以输入编辑目标,代理会解释用户的目标并制定行动计划来实现目标。代理在执行前需要用户批准计划,并在执行后通知用户结果和下一步行动。代理可以记忆之前的对话,以便提供更好的建议。
- 视频概述:代理人可以根据主题或话题对用户提供的视频进行分类,帮助用户更好地编辑视频。
- 创意头脑风暴:代理人可以根据用户提供的视频帮助用户产生编辑创意,也可以根据用户的指导进行创意头脑风暴。
- 视频检索:代理人可以根据语言查询帮助用户检索相关视频,提高检索效率。
- 故事板:代理人可以根据用户提供的故事情节帮助用户对视频进行排序,也可以自动生成故事情节。
后端系统
本文介绍了基于语言模型的视频编辑代理LAVE Agent的设计和实现。该代理利用了LLMs的推理、规划和故事叙述等多种语言能力,采用计划和执行的方式,使用户可以设置高层次的目标,而无需详细描述每个单独的操作。在执行前,代理会向用户呈现计划,以便进行修改,并确保用户保持完全控制。该代理的后端管道包括行动规划、文本描述转换和函数调用执行等步骤。在行动规划方面,该代理采用了专门的LLM提示格式,利用了先前研究中的行动/工具使用提示技术和思维链提示技术,将复杂任务分解为子任务。
角色分配和操作说明。角色分配部分指示助手生成用户命令的行动计划。操作说明部分列出了助手可以执行的各种编辑功能,并提供了每个功能的功能和用例。最后,格式指令指导助手以一致的格式输出行动计划,包括用户的编辑目标和建议的行动步骤。完整的提示包括最近的对话历史和最新的用户输入。
LAVE将行动计划转化为可执行函数,用户可以逐个批准每个行动并观察结果。LAVE使用OpenAI GPT-4检查点将行动描述转化为后端函数调用,并提供每个函数的详细说明。LLM可以将文本提示转化为相应的编辑函数调用,并更新前端UI。
LLM驱动的编辑功能的实现
LAVE是一个视频编辑工具,支持五个LLM-powered功能:1)素材概览,2)创意头脑风暴,3)视频检索,4)故事板,5)剪辑修剪。这些功能都是基于自动生成的文本描述视频的语言描述,包括每个剪辑的标题和摘要。其中,语言视频检索是通过向量存储数据库实现的,其余功能则是通过LLM提示工程实现的。表1概述了每个功能的输入、输出和UI更新。
LAVE使用LLaVA和GPT-4生成视频标题和摘要,并使用OpenAI的文本嵌入技术进行视频检索。LAVE还可以通过LLM对视频进行分类和创意编辑建议。
LAVE的storyboarding功能根据用户提供的叙述将视频剪辑按顺序排列。它只影响时间轴上的视频。系统会检查用户提供的叙述是否有创意指导,例如“从我的狗的视频开始,然后过渡到我的猫的视频”。如果没有指导,LLM将根据时间轴上的视频创建一个叙述。输出以JSON格式结构化,其中键“storyboard”映射到详细描述每个场景的文本,键“video_ids”映射到指示顺序的视频ID列表。执行完成后,“storyboard”中包含场景描述的内容将显示在聊天界面上,并且时间轴上的视频顺序将根据“video_ids”进行更新。
LAVE利用LLM的推理和信息解析能力来修剪视频剪辑。该功能分析帧标题以识别与用户修剪命令匹配的视频片段。修剪命令和预处理期间生成的逐帧标题被附加到编译的提示中,然后发送到LLM进行完成。输出也以JSON格式结构化。LAVE的修剪精度为一秒,可以通过变化采样率来调整。
系统实现
用户分析
本用户研究旨在评估LAVE在视频编辑任务中的语言增强效果,并了解LLM驱动的代理在编辑过程中对用户的自主性和创造力的影响。研究通过让参与者使用他们自己的素材来测试LAVE的功能和实用性。结果与降低自然语言编辑障碍和保持用户自主性的设计目标相关,并强调了这些目标的实现。
通过用户研究总结了以下要点:LAVE能够帮助不熟练的用户轻松地编辑视频,用户对LAVE的使用体验和编辑结果都非常满意,LAVE的编辑范式受到用户的欢迎,用户认为LAVE的设计易用且有用,但有些功能的有用性得到了不同的评价,如创意构思和视频剪辑等。用户对LAVE的视频检索功能和视频概述和描述功能的有用性评价最高。
Storyboarding功能被认为有助于对视频片段进行排序,但使用语言模型可能会生成不合理的故事情节。Clip Trimming功能受到用户的欢迎,但语言模型在处理一些不在系统生成的视觉叙述中的元素时可能会出现错误。用户对LAVE的自动化编辑感到信任,并认为他们在使用系统时仍保留了控制权。用户普遍认为他们对最终结果负有责任,而不是完全归因于AI。用户将LAVE的编辑代理视为助手或合作伙伴,没有人认为AI代理扮演领导角色。所有参与者都赞赏使用LAVE时能够对编辑决策拥有最终决定权。
用户普遍认为AI对创造力有积极影响,6位用户认为系统增强了他们的创造力。用户对LAVE代理的支持程度因任务而异,需要提供个性化的支持。用户的先前经验可能会影响他们对LAVE的认知和交互方式。未来的研究可以探讨用户如何在使用LAVE和类似系统时建立心理模型。
总结
LAVE是一个视频编辑工具,通过LLM技术提供智能辅助和语言增强功能。我们介绍了该系统的设计和实现,以及支持的功能和语言增强特性。通过用户研究,我们评估了LAVE的有效性,并了解了用户对LLM辅助视频编辑的感知和反应。根据研究结果,我们提出了设计建议,以指导未来类似系统的设计。我们的工作为代理辅助媒体内容编辑工具的未来发展提供了启示。我们对这个方向持乐观态度,并相信我们只是开始了探索的表面。
评论0