华盛顿大学推高效大模型调优方法“代理调优”
华盛顿大学推出更高效的大模型调优方法“代理调优”,该方法通过对比小型调整模型和未调整模型的预测结果来引导基础模型的预测,实现对模型的调优而无需接触模型的内部权重。
随着ChatGPT等生...
国内首个与ChatGPT不同机制的通用大模型发布,算力消耗缩减50%
1月24日下午,国内AIGC企业上海岩芯数智人工智能科技有限公司(岩芯数智,RockAI)在上海发布了国内首个自研的非Transformer Attention机制的低算力通用自然语言大模型——Yan模型,记忆能力提...
Canalys发布2024年全球科技行业十大趋势:预计中国将成为全球最大 AI 市场
Canalys 发布了2024年全球科技行业十大趋势的预测。其中包括生成式 AI 的普及、AI 人才短缺、企业拥有超级计算机的增加、非正式编程培训个人生成代码的增加、苹果 Vision Pro 产品供不应求...
斯坦福推新AI模型 可快速找出图片中位置,准确率92%
一群斯坦福大学研究生发布了一个新项目,他们的AI模型经过了10万个随机位置、50万个街景图片以及其他图片的训练。这个模型能够快速准确地找出图片中的位置,目前的准确率达到了92%。
论文地...
Github爆火AI语音克隆项目OpenVoice,精准进行声音复刻
最近,Github上的一个名为OpenVoice的AI语音克隆项目爆火,该项目由myshell-ai开源,仅开源了不到三周,就有了6.1k的star。
OpenVoice仅需参考说话者的短音频片段,即可复制其声音并生成多种...
清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。
LLaVA是一个...
Text2Immersion:可通过文本直接生成3D场景
Text2Immersion是一种创新的方法,通过文本提示生成高质量的3D沉浸式场景。该项目的流程首先利用预训练的2D扩散和深度估计模型逐步生成高斯云,然后在高斯云上进行细化阶段,通过插值和细化...
阿里AI项目DreamTalk开源 可让人物头像说话
阿里巴巴宣布其项目DreamTalk已经开源。这个项目可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。
模型下载地址:https://huggingface.co/damo-vilab/dre...
MyShell发布开源AI语音克隆工具OpenVoice,瞄准语音模仿领域
MyShell最新推出的开源语音克隆工具OpenVoice引起了广泛关注。这一创新产品由麻省理工学院(MIT)、清华大学以及加拿大人工智能初创公司MyShell合作开发。OpenVoice采用了一种概念简单但高效...
清华大学开发出新视觉语言模型 可更准确理解 GUI
清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。
CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出...