MoA:用于图片合成的混合注意力架构 可实现风格参考和人物融合
在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。
受大型语言模型(LLMs)中使用的专家混合机制的启发,M...
StoryGPT-V,可以生成漫画故事的多模态大模型
“StoryGPT-V: Large Language Models as Consistent Story Visualizers”
目前,大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V,利用潜扩散(LDM)和LLM...