丑的上头的黏土滤镜爆火!Remini打开了AIGC的财富密码?
最近,网友们被一款传说中史上最丑AI生图神器Remini刷屏了,用户只需要上传一张照片,就可以利用AI技术生成对应的黏土滤镜风格的图像,可以实现表情神韵的高度还原。无论是硅谷大佬,甄嬛传...
清华发表GeneOH Diffusion,让AI看懂手物交互动作,迈进全息操作
“GENEOH DIFFUSION: TOWARDS GENERALIZABLE HAND-OBJECT INTERACTION DENOISING VIA DENOISING DIFFUSION”
电影《钢铁侠》中史塔克可以通过挥动双手直接操作全息投影中...
MoA:用于图片合成的混合注意力架构 可实现风格参考和人物融合
在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。
受大型语言模型(LLMs)中使用的专家混合机制的启发,M...
FixAgent:使用大模型进行自动化代码调试,80个BUG中成功修复了79个!
“A Unified Debugging Approach via LLM-Based Multi-Agent Synergy”
对于程序员来说,找BUG是一个痛苦的过程。目前的大模型已经可以自己写代码了,那是否可以实现自动D...
谷歌2024I/O大会: AI 搜索“AI Overviews”发布
在今日举行的谷歌2024年I/O开发者大会上,谷歌公司正式推出了其全新搜索体验——“AI Overviews”,这标志着谷歌搜索引擎问世25年来的又一次重大更新。据悉,该体验将于本周首先在美国地区上线...
谷歌推出文生视频模型Veo:对标Sora 时长超 1 分钟
在今日举行的谷歌2024I/O开发者大会上,谷歌正式推出了备受瞩目的全新视频生成模型——Veo。这款产品被视为对OpenAI三个月前推出的文本转视频工具Sora的直接挑战,旨在为用户提供更加高质量、...
LLaVA++:为Phi-3和Llama-3模型增加视觉处理能力
LLaVA++项目通过扩展现有的LLaVA模型,成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。
主要创新点包括:
模型整合: LLaVA++将Phi-3和Llama-3...
字节发表StoryDiffusion:让AI生成一个好的漫画故事,已开源
你是否还在为如何创作一个漫画故事发愁?让我们来看看字节和南开发表的StoryDiffusion,让AI自动生成一个好的漫画故事。
项目主页:https://storydiffusion.github.io/
...
ChatHuman:一个模型实现3D数字人交互分析、3D姿势估计、情感分析
“ChatHuman: Language-driven 3D Human Understanding with Retrieval-Augmented Tool Reasoning”
项目主页:https://chathuman.github.io/
论文地址:https://arxiv.o...
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型
Meta AI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GP...