MyShell最新推出的开源语音克隆工具OpenVoice引起了广泛关注。这一创新产品由麻省理工学院(MIT)、清华大学以及加拿大人工智能初创公司MyShell合作开发。OpenVoice采用了一种概念简单但高效的方法,可几乎即时克隆用户的语音,并使用明显更少的计算资源。
该工具不仅具备语音克隆的基本功能,而且提供了细致入微的控制选项,涵盖语调、情感、节奏、停顿和语调等多个方面。这意味着用户可以通过OpenVoice生成具有个性化风格的语音克隆,而无需花费大量时间和计算资源。
在作者的非科学性测试中,使用OpenVoice在HuggingFace平台上生成了一个相对令人信服的语音克隆,仅需几秒钟的随机语音即可完成。与其他语音克隆应用不同的是,用户无需朗读特定文本片段,只需随意说几秒钟的话,即可立即生成可播放的语音克隆,读取提供的文本提示。
OpenVoice的背后是两个主要的AI模型:文本到语音(TTS)模型和“音调转换器”模型。TTS模型控制“风格参数和语言”,并且通过来自两名英语演讲者(美国和英国口音)、一名中文演讲者和一名日本演讲者的30,000个句子的音频样本进行训练。与此同时,音调转换器模型则通过来自20,000多名不同演讲者的300,000个音频样本进行训练。
通过将用户提供的录音音频的音调与TTS模型的“基础发声者”结合起来,这两个模型共同可以复制用户的语音,并改变其“音调颜色”或文本所表达的情感表达。与其他方法相比,OpenVoice的方法在克隆语音时大大减少了计算资源的使用,包括Meta的竞争对手Voicebox。
MyShell,作为OpenVoice的推动者,成立于2023年,总部位于加拿大艾伯塔省的卡尔加里,通过由INCE Capital主导的560万美元种子轮融资以及Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC和OP Crypto的额外投资,已经吸引了超过400,000名用户。该初创公司通过其Web应用提供各种基于文本的AI角色和机器人,包括一些带有不同“个性”的角色,还提供动态GIF制作工具和用户生成的基于文本的角色扮演游戏。
尽管MyShell将OpenVoice开源,但该公司仍通过其Web应用的月度订阅、希望在应用程序内推广其产品的第三方机器人创建者费用以及人工智能培训数据费用等多方面赚取收入。这种商业模式旨在为MyShell提供可持续的经济基础,从而在开源和商业利益之间找到平衡。
项目体验网址:https://top.aibase.com/tool/openvoice
论文网址: https://arxiv.org/abs/2312.01479
评论0