自发布以来,曾被认为是世界上最强大的 GPT-4 也经历了多场「信任危机」。
ChatGPT发布一年多,已经在全世界累积了超过1.8亿用户。而随着越来越多的人们开始频繁使用它,近几个月关于GPT-4在“变笨”、“变懒”的说法不绝于耳。
如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4 架构有关。
前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在是寒假」,它就会变得懒懒散散,仿佛进入了一种冬眠状态。
大家发现这个昔日大聪明在回答提问时逐渐失去了最初的理解力和准确性,时不时给出“驴唇不对马嘴”的答案,或是干脆摆烂、拒绝回答。
有人反馈,把GPT-4的3小时25条对话额度一口气用完了,都没解决自己的代码问题。
无奈切换到GPT-3.5,反倒解决了。
这就引起不少人怀疑,OpenAI是不是为了节省成本,开始偷工减料?
对于GPT-4降智的原因,用户们有许多自己的猜测。而最近,来自加州大学圣克鲁兹分校的一篇论文,给出了学术界的最新解释。
研究发现,“在训练数据创建日期之前发布的数据集上,LLM的表现出奇地好于之后发布的数据集。”
这意味着,LLM在“见过”的任务上表现出色,而在新任务上则表现糟糕。
这似乎进一步证实了,LLM主要依赖近似检索的模仿智能方法,侧重于记忆而非真正的“理解能力”。简言之,LLM的泛化能力并非如传说中那般强大。
造成这一现象的关键原因是“任务污染”,它是数据污染的一种形式。
传统的数据污染聚焦于测试数据的污染,即在预训练数据中混入测试数据示例和标签。
而“任务污染”则是在预训练数据中加入任务训练示例,导致零样本或少样本方法中的评估结果失真。
这一发现为我们理解GPT-4的性能问题提供了新的视角。
在探究GPT系列模型“降智”现象的研究中,研究团队采用了系统性的方法来评估和理解这一现象。本部分将详细介绍他们所使用的测试模型、数据集和具体的测试方法。
研究团队选择了12种不同的模型进行评估,这包括5个专有的GPT-3系列模型和7个开放模型,如OPT、Llama和Alpaca等。
研究团队在深入探究GPT系列模型“变笨”现象后,得出了一些关键结论。
这些结论不仅揭示了大型模型在处理新任务时性能下降的原因,也指出了当前AI训练方法的局限性。
由于“任务污染”的存在,闭源模型可能在零样本或少样本评估中表现得比实际好,尤其是经过RLHF(Reinforcement Learning from Human Feedback)微调的模型。
对于在收集LLM训练数据之前创建的数据集,其性能高于大多数基线的概率明显更高。
对于不可能存在“任务污染”的分类任务,模型很少比简单多数基线有统计意义上的显著提高。
GPT-3系列模型在特定任务上的性能提高主要是由“任务污染”造成的。
这篇论文一公布就在各大社交媒体平台上引起了广泛讨论,吸引了很多人讨论,同时也有越来越多的人都认为这篇论文实际上澄清了一个流传甚广的阴谋论。
这种说法自GPT被人发现变笨后就一直在江湖上甚嚣尘上,即OpenAI实际上并不是为了节省成本而故意让GPT变笨的。
更可能的原因是他们也束手无策,特别是对GPT的能力稳定性以及改善控制节奏等方面。
虽然证实了OpenAI的确无辜,但是这篇论文在事实上又引出了另一个更让人不安的消息:
每一次大模型的迭代升级,针对预训练大模型的微调和RLHF(基于人类反馈的强化学习),实际上都会造成大模型能力的波动或不稳定,而且目前还无法确定这一切究竟是如何发生的。
因此很快就有人表示“这一发现在不久就将终结大模型发展的时代,因为相比会在短期内出现猛烈波动的大模型,人们更需要的是稳定可靠的AI助手。”
有人猜测正是这种波动导致OpenAI在努力推进alignment(对齐)研究,因为对齐的目标之一就是确保GPT在每次迭代升级后都在某些基准上保持一致。
还有人表示GPT-4在数学问题上的糟糕表现令人怀疑,GPT的内部似乎有一种机制在主动控制模型,甚至故意输出错误答案。
也有人说OpenAI前不久刚刚发布的Code Interpreter功能强大,实际上弥补了GPT在代码方面下降的能力,让人怀疑可能是OpenAI对GPT-4的整体结构进行了一些调整。
不少许多网友也悲观地表示:降智没准儿是目前所有大模型的共同命运。
对于没有持续学习能力的机器学习模型来说,其权重在训练后被冻结,但输入分布却不断漂移。近两亿用户五花八门的新问题日夜不间断,如果模型不能持续适应这种变化,其性能就会逐步退化。
就比如基于大模型的编程工具,也会随着编程语言的不断更新而降级。
而持续重新训练这些模型的成本很高,人们迟早会放弃这种效率低下的方法。
就目前的LLM来说,很难构建可以在不严重干扰过去知识的情况下,连续适应新知识的机器学习模型。
有网友认为:“围绕人工智能的所有炒作大多是基于这样一个假设:人工智能将会越来越好。
但按照这些大型语言模型的设计方式,实现通用人工智能几乎是不可能的。在特定场景下的小众用例是这项技术的最佳使用方式。”
而持续学习,恰恰是生物神经网络的优势。由于生物网络具有强大的泛化能力,学习不同的任务可以进一步增强系统的性能,从一个任务中获得的知识有助于提升整个学习过程的效率——这种现象也称为元学习。
“从本质上讲,你解决的问题越多,就会变得越好,而大模型虽然每天被数以百万计的问题所触发,它们并不会自动地在这些任务上变得更加出色,因为它们的学习能力被冻结在了某一时刻。”
不过想来一个有些矛盾的现实是,现在的人们越来越依赖于AI生成的内容,用退化中的大模型提供的答案去解决生活中的实际问题。
未来大模型爬到的数据,将会越来越多会是它自己创造的东西,而不是来自人脑。
AI用AI的产出去自我训练,最终结果又会走向何方呢?如果不着手从根本上解决数据污染和持续学习能力的问题,未来的世界会和大模型一起变笨吗?
评论0