在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。 受大型语言模型(LLMs)中使用的专家混合机制的启发,M...
2024-05-15 369

“StoryGPT-V: Large Language Models as Consistent Story Visualizers”   目前,大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V,利用潜扩散(LDM)和LLM...
2023-12-19 669
显示验证码