“CoSeR: Bridging Image and Language for Cognitive Super-Resolution”   图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度。现有的超分...
2024-01-02 1.08k

为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
2023-12-30 572

目前的多模态大语言模型未能在像素级实现细粒度的视觉-语言对齐,基于掩码的指令数据的缺乏限制了它们的进步。本文提出Osprey,通过将细粒度掩码区域合并到语言指令中来扩...
2023-12-30 651

“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models” 近日,旷视发表了Vary,可以一键识别图片中的文本、公式、表格,并输出成markdown格式。...
2023-12-28 1.21k

“StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation”     近日,UC Berkeley、日本筑波大学、MIT联合发表了StreamDiffusion,一...
2023-12-27 591

“HUGS: Human Gaussian Splats” 创建一个赛博虚拟人分身需要多久?现在只需半个小时即可实现!近日,苹果发布了3D数字人生成模型HUGS,可以从一段30分钟内的视频当中提...
2023-12-26 660

“EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection”   随着近年来AIGC技术的蓬勃发展,AI生成作品的版权问题急需一个有效...
2023-12-25 577

“3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection” 单目3D目标检测的一个主要挑战是真实数据集中目标的多样性和数量有限。本文研究...
2023-12-25 456

“Fairy: Fast Parallellized Instruction-Guided Video-to-Video Synthesis”   随着生成式AI的发展,文本生成、图像生成、音频视频、风格迁移等应用效果已经得到了极...
2023-12-23 470

“CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models”   说起角色扮演,大家首先想到的实什么呢?动漫展上的cosplay小姐姐...
2023-12-22 1.1k
显示验证码