路西法AI前沿

华盛顿大学推高效大模型调优方法“代理调优”

人工智能·头条

华盛顿大学推出更高效的大模型调优方法“代理调优”，该方法通过对比小型调整模型和未调整模型的预测结果来引导基础模型的预测，实现对模型的调优而无需接触模型的内部权重。随着ChatGPT等生...

2024-02-18 438

国内首个与ChatGPT不同机制的通用大模型发布，算力消耗缩减50%

人工智能·头条

1月24日下午，国内AIGC企业上海岩芯数智人工智能科技有限公司（岩芯数智，RockAI）在上海发布了国内首个自研的非Transformer Attention机制的低算力通用自然语言大模型——Yan模型，记忆能力提...

2024-02-18 483

Canalys发布2024年全球科技行业十大趋势：预计中国将成为全球最大 AI 市场

人工智能·头条

Canalys 发布了2024年全球科技行业十大趋势的预测。其中包括生成式 AI 的普及、AI 人才短缺、企业拥有超级计算机的增加、非正式编程培训个人生成代码的增加、苹果 Vision Pro 产品供不应求...

2024-02-18 1.25k

斯坦福推新AI模型可快速找出图片中位置，准确率92%

人工智能·头条

一群斯坦福大学研究生发布了一个新项目，他们的AI模型经过了10万个随机位置、50万个街景图片以及其他图片的训练。这个模型能够快速准确地找出图片中的位置，目前的准确率达到了92%。论文地...

2024-01-15 574

Github爆火AI语音克隆项目OpenVoice，精准进行声音复刻

人工智能·头条

最近，Github上的一个名为OpenVoice的AI语音克隆项目爆火，该项目由myshell-ai开源，仅开源了不到三周，就有了6.1k的star。 OpenVoice仅需参考说话者的短音频片段，即可复制其声音并生成多种...

2024-01-08 1.23k

清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

人工智能·头条

近期，GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下，出现了一系列性能优异的开源视觉模型。其中，LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。 LLaVA是一个...

2024-01-08 723

Text2Immersion：可通过文本直接生成3D场景

人工智能·头条

Text2Immersion是一种创新的方法，通过文本提示生成高质量的3D沉浸式场景。该项目的流程首先利用预训练的2D扩散和深度估计模型逐步生成高斯云，然后在高斯云上进行细化阶段，通过插值和细化...

2024-01-04 498

阿里AI项目DreamTalk开源可让人物头像说话

人工智能·头条

阿里巴巴宣布其项目DreamTalk已经开源。这个项目可以让人物照片说话，支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。模型下载地址:https://huggingface.co/damo-vilab/dre...

2024-01-04 546

MyShell发布开源AI语音克隆工具OpenVoice，瞄准语音模仿领域

人工智能·头条

MyShell最新推出的开源语音克隆工具OpenVoice引起了广泛关注。这一创新产品由麻省理工学院（MIT）、清华大学以及加拿大人工智能初创公司MyShell合作开发。OpenVoice采用了一种概念简单但高效...

2024-01-04 569

清华大学开发出新视觉语言模型可更准确理解 GUI

人工智能·头条

清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。 CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出...

2024-01-02 544

华盛顿大学推高效大模型调优方法“代理调优”

国内首个与ChatGPT不同机制的通用大模型发布，算力消耗缩减50%

Canalys发布2024年全球科技行业十大趋势：预计中国将成为全球最大 AI 市场

斯坦福推新AI模型可快速找出图片中位置，准确率92%

Github爆火AI语音克隆项目OpenVoice，精准进行声音复刻

清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

Text2Immersion：可通过文本直接生成3D场景

阿里AI项目DreamTalk开源可让人物头像说话

MyShell发布开源AI语音克隆工具OpenVoice，瞄准语音模仿领域

清华大学开发出新视觉语言模型可更准确理解 GUI

微信公众号

客服微信