谷歌发表Lumiere,最强视频生成模型,AI生成短视频时代即将来临
“Lumiere: A Space-Time Diffusion Model for Video Generation”
近日,谷歌发表了最强T2V模型Lumiere,实现视频生成领域新SOTA。Lumiere不仅在视频时长上实现了质的飞...
TinyLlama:高性能小模型,性能媲美大模型,参数轻量级,性能重量级
“TinyLlama: An Open-Source Small Language Model”
近日,新加坡科技设计大学(SUTD)发表了 TinyLlama,11亿参数量,使用大约 3 万亿个 token 上预训练而成。“仅”需 1...
Meta AI发布Audio2Photoreal,通过对话音频即可生成全身逼真的虚拟人物表情与动作
你是否有遇到过打字或者语音聊天时,开了一个玩笑,对方却误以为真,导致矛盾反正的情况?通过打字或者音频聊天时,我们通常只能猜测对方的态度和语气,容易引起误解。
...
MoonShot:在多模态条件下实现可控视频生成和编辑
“MoonShot: Towards Controllable Video Generation and Editing with Multimodal Conditions”
项目主页:https://showlab.github.io/Moonshot/
论文地址:https://arx...
阿里发表DreaMoving,基于扩散模型的人类视频生成框架,高质量舞蹈视频生成
“DreaMoving: A Human Video Generation Framework based on Diffusion Models”
项目主页:https://dreamoving.github.io/dreamoving
论文地址:https://arxiv.org/pdf...
Unified-IO 2:首个图像/文本/音频/视频/动作多模态模型,迈向AGI任务
“Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action”
Unified-IO 2号称是第一个能够理解和生成图像、文本、音频和动...
Pose Anything:类别无关通用姿态估计方法,实现任意目标类别的关键点定位
“Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation”
本文提出一种新的CAPE方法,通过新设计的Graph Transformer Decoder,利用关键点之间...
阿里达摩院发表AnyText,解决文生图中文字生成模糊、错误问题
“ANYTEXT: MULTILINGUAL VISUAL TEXT GENERATION AND EDITING”
文生图中的文字生成问题一直困扰着广大AIGC应用,今日,阿里发表了AnyText针对这个问题进行了优化。接下...
阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像
“Make-A-Character: High Quality Text-to-3D Character Generation within Minutes”
项目主页:https://human3daigc.github.io/MACH/
论文地址:https://arxiv.org/...
DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟
“DreamGaussian4D: Generative 4D Gaussian Splatting”
项目主页:https://jiawei-ren.github.io/projects/dreamgaussian4d/
论文地址:https://arxiv.org/abs/2312....