灵度智能

清华&华为发表CoSeR，基于认知的万物超分模型，和马赛克说拜拜

人工智能·头条

“CoSeR: Bridging Image and Language for Cognitive Super-Resolution” 图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像，从而提高图像的清晰度。现有的超分...

2024-01-02 1.08k

NUS&清华发表NExT-Chat，对话、检测、分割多模态大模型

人工智能·头条

为了提高视觉理解水平，最近的研究通过将对象边界框坐标表示为一系列文本序列（pix2seq），使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式，称为pix2emb方法，要求LMM...

2023-12-30 572

浙大&蚂蚁发表Osprey，首个像素级多模态AI大模型

人工智能·头条

目前的多模态大语言模型未能在像素级实现细粒度的视觉-语言对齐，基于掩码的指令数据的缺乏限制了它们的进步。本文提出Osprey，通过将细粒度掩码区域合并到语言指令中来扩...

2023-12-30 651

旷视发表Vary，开源大模型OCR引擎，支持中英文，一键识别图片中的文本、公式、表格

人工智能·头条

“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models” 近日，旷视发表了Vary，可以一键识别图片中的文本、公式、表格，并输出成markdown格式。...

2023-12-28 1.21k

UC Berkeley发表StreamDiffusion，单张4090每秒可生成90张图像，图像生成性能大幅提升

人工智能·头条

“StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation” 近日，UC Berkeley、日本筑波大学、MIT联合发表了StreamDiffusion，一...

2023-12-27 591

苹果发表最快3D数字人生成器HUGS，30分钟创建赛博数字人分身，渲染仅需16毫秒

人工智能·头条

“HUGS: Human Gaussian Splats” 创建一个赛博虚拟人分身需要多久？现在只需半个小时即可实现！近日，苹果发布了3D数字人生成模型HUGS，可以从一段30分钟内的视频当中提...

2023-12-26 660

北大发表EditGuard，AIGC时代版权保护，用于篡改定位和版权保护的通用图像水印

人工智能·头条

“EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection” 随着近年来AIGC技术的蓬勃发展，AI生成作品的版权问题急需一个有效...

2023-12-25 577

3D Copy-Paste：单目3D场景物体插入

人工智能·头条

“3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection” 单目3D目标检测的一个主要挑战是真实数据集中目标的多样性和数量有限。本文研究...

2023-12-25 456

Meta发表Fairy，极速视频编辑/合成，14秒就能重建视频，速读提升44倍

人工智能·头条

“Fairy: Fast Parallellized Instruction-Guided Video-to-Video Synthesis” 随着生成式AI的发展，文本生成、图像生成、音频视频、风格迁移等应用效果已经得到了极...

2023-12-23 470

清华发表CharacterGLM，基于大模型的AI角色定制

人工智能·头条

“CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models” 说起角色扮演，大家首先想到的实什么呢？动漫展上的cosplay小姐姐...

2023-12-22 1.1k

清华&华为发表CoSeR，基于认知的万物超分模型，和马赛克说拜拜

NUS&清华发表NExT-Chat，对话、检测、分割多模态大模型

浙大&蚂蚁发表Osprey，首个像素级多模态AI大模型

旷视发表Vary，开源大模型OCR引擎，支持中英文，一键识别图片中的文本、公式、表格

UC Berkeley发表StreamDiffusion，单张4090每秒可生成90张图像，图像生成性能大幅提升

苹果发表最快3D数字人生成器HUGS，30分钟创建赛博数字人分身，渲染仅需16毫秒

北大发表EditGuard，AIGC时代版权保护，用于篡改定位和版权保护的通用图像水印

3D Copy-Paste：单目3D场景物体插入

Meta发表Fairy，极速视频编辑/合成，14秒就能重建视频，速读提升44倍

清华发表CharacterGLM，基于大模型的AI角色定制

微信公众号

客服微信