清华&华为发表CoSeR,基于认知的万物超分模型,和马赛克说拜拜
“CoSeR: Bridging Image and Language for Cognitive Super-Resolution”
图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度。现有的超分...
NUS&清华发表NExT-Chat,对话、检测、分割多模态大模型
为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
浙大&蚂蚁发表Osprey,首个像素级多模态AI大模型
目前的多模态大语言模型未能在像素级实现细粒度的视觉-语言对齐,基于掩码的指令数据的缺乏限制了它们的进步。本文提出Osprey,通过将细粒度掩码区域合并到语言指令中来扩...
旷视发表Vary,开源大模型OCR引擎,支持中英文,一键识别图片中的文本、公式、表格
“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”
近日,旷视发表了Vary,可以一键识别图片中的文本、公式、表格,并输出成markdown格式。...
UC Berkeley发表StreamDiffusion,单张4090每秒可生成90张图像,图像生成性能大幅提升
“StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation”
近日,UC Berkeley、日本筑波大学、MIT联合发表了StreamDiffusion,一...
苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒
“HUGS: Human Gaussian Splats”
创建一个赛博虚拟人分身需要多久?现在只需半个小时即可实现!近日,苹果发布了3D数字人生成模型HUGS,可以从一段30分钟内的视频当中提...
北大发表EditGuard,AIGC时代版权保护,用于篡改定位和版权保护的通用图像水印
“EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection”
随着近年来AIGC技术的蓬勃发展,AI生成作品的版权问题急需一个有效...
3D Copy-Paste:单目3D场景物体插入
“3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection”
单目3D目标检测的一个主要挑战是真实数据集中目标的多样性和数量有限。本文研究...
Meta发表Fairy,极速视频编辑/合成,14秒就能重建视频,速读提升44倍
“Fairy: Fast Parallellized Instruction-Guided Video-to-Video Synthesis”
随着生成式AI的发展,文本生成、图像生成、音频视频、风格迁移等应用效果已经得到了极...
清华发表CharacterGLM,基于大模型的AI角色定制
“CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models”
说起角色扮演,大家首先想到的实什么呢?动漫展上的cosplay小姐姐...