OpenAI阿尔特曼晒网友新年愿望单:通用人工智能、GPT-5呼声最多
时值圣诞季,OpenAI 首席执行官萨姆・阿尔特曼化身“圣诞老人”在自己的 X 平台账号上发文征求网友们 2024 年对 OpenAI 的愿望与期待:“你希望 OpenAI 明年新增或修复哪些功能?”。这条帖子...
NUS&清华发表NExT-Chat,对话、检测、分割多模态大模型
为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM...
浙大&蚂蚁发表Osprey,首个像素级多模态AI大模型
目前的多模态大语言模型未能在像素级实现细粒度的视觉-语言对齐,基于掩码的指令数据的缺乏限制了它们的进步。本文提出Osprey,通过将细粒度掩码区域合并到语言指令中来扩...
汇集20+顶尖高校的AI院长峰会,深度探讨AI大模型的未来之路
2023 年是大模型之年。
大模型代表了人工智能领域的重大进步,有史以来第一次人类真正看见了通用人工智能(AGI)的曙光。然而,关于大模型,我们了解得并不多。
以 OpenAI 首席科学家 Ily...
旷视发表Vary,开源大模型OCR引擎,支持中英文,一键识别图片中的文本、公式、表格
“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”
近日,旷视发表了Vary,可以一键识别图片中的文本、公式、表格,并输出成markdown格式。...
UC Berkeley发表StreamDiffusion,单张4090每秒可生成90张图像,图像生成性能大幅提升
“StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation”
近日,UC Berkeley、日本筑波大学、MIT联合发表了StreamDiffusion,一...
Genmo:超过的AI绘图工具,我字还没打完AI就生成出来了
所以我今天找到了一个比较简单粗糙但也挺好玩的AI生成网站,与Stable Diffusion只生成图片不同,这个网站还可以生成视频。
https://www.genmo.ai/create/image
这个的使用原理和其他的AI...
工信部:将加强Web3.0技术研究和监管;多名美国作家起诉OpenAI……
NO.1
工信部:将加强Web3.0技术研究和监管,就Web3.0开展国际交流合作并加大技术宣传和推广
12月20日,据工信部在对全国政协十四届一次会议第02969号提案的答复,除了此前报道...
AI已经会「玩」手机了!腾讯开发AppAgent 可模仿人类在手机上操作APP
在数字化浪潮中,腾讯与德州大学达拉斯分校的研究团队,共同翻开了智能科技的新篇章。他们共同发布的《AppAgent: Multimodal Agents as Smartphone Users》论文,不仅是学术探索的成果,更...
苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒
“HUGS: Human Gaussian Splats”
创建一个赛博虚拟人分身需要多久?现在只需半个小时即可实现!近日,苹果发布了3D数字人生成模型HUGS,可以从一段30分钟内的视频当中提...