神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:ChatGPT 无疑是迄今为止被炒作得最厉害的 AI 应用,很多人甚至认为它代表了 AI 的未来。由于明年 ChatGPT 的内核将会升级为 GPT4,新的模型参数将更多,吸收的互联网数据将更庞大,大家都对它寄予了厚望。但知名 AI 专家认为,只要模型不具备显式的知识和世界模型,就没法实现真正意义的通用人工智能。文章来自编译。
在 2022 年接近尾声之际,OpenAI 发布了一款名为 ChatGPT 的自动书写系统,很快就在互联网上走红;发布后不到两周,已有超过一百万人注册在线试用 ChatGPT。正如现在每一位读者肯定都已经知道的那样,你只需输入文本,然后马上就能得到一段又一段不可思议的,像是人写出来的文字、故事、诗歌等等。有些东西它写得非常好,以至于有些人用它去 Tinder 上面约会。令世界各地的教育工作者大吃一惊的是,有的人则正在用它来撰写学期论文。还有一些人在尝试用它来重新发明搜索引擎。我还从没见过炒作得这么厉害的。
【资料图】
尽管如此,我们却不应该被它彻底征服。
虽然 ChatGPT 似乎什么都可以写,但也很容易让人迷惑。正如我告诉《纽约时报》专栏作家 Farhad Manjoo 的那样,跟之前的一样,ChatGPT 等相关系统“依旧不靠谱,依旧不了解物理世界,依旧不了解心理世界,依旧会产生幻觉。”
也就是说,它会时不时胡编乱造;它说的东西有相当一部分根本就不是真的。
比方说,ChatGPT 声称西班牙油条非常适合手术,因为“它们体积小巧,可以在手术过程中保证更高的精度和控制,降低并发症的风险,并改善手术的整体结果”;机器一本正经地胡编乱造之流利,这种幻觉问题实在是可怕了,以至于至少有一家知名网站 Stack Overflow 已经暂时禁止提交计算机生成的答案。
而且这种错误没完没了。这套系统经常会根据反馈做出调整,但几周后我仍然不断收到这样的推文:
我得承认我站@GaryMarcus这一边。我们很容易被愚弄——ChatGPT乍一看似乎很智能,但事实并非如此。这些结果不是精挑细选出来的,我已经为孩子们尝试过很多谜题,但 chatGPT 回答不了。它确实是有用,但还不智能。
当然,现在他们加了护栏了,但有时候这些护栏也很糟糕。这是我自己的第一个 ChatGPT 实验:
作者问的问题其实都很简单,问题本身就隐藏了答案(如美国的第一位女性总统的性别是什么?),但机器讲了一堆废话都没讲到点子上。
认出类似这样的错误实在是太容易了,所以 OpenAI 的首席执行官 Sam Altman 和之前讽刺我的人最终被迫承认现实:
ChatGPT 存在极大的局限性,但在某些事情上做得很好,足以给人一种十分出色的假象。目前想靠它来做任何重要的事情是不靠谱的。这是进步的预览;在健壮性和可信性方面,我们还有很多工作要做。
简而言之,ChatGPT 听起来就像是《星际迷航》里面的计算机,但目前你仍然不能相信它。
但这些都是 2022 年的事情。那么 2023 年呢?
硅谷乃至整个世界都在等待的是 GPT-4。
我保证会让人大吃一惊。我认识几个已经试过 GPT-4 的人,他们都对它印象深刻。GPT-4 确实很快就要来了(根据一些传言,这个时间可能是2023 年春天)。当它问世时,将会令 ChatGPT 黯然失色;可以肯定的是,会有更多人讨论它……
从许多方面而言,对它的期望确实非常高:
GPT-4 很快就会面世,带来的经济冲击也许会像新冠疫情一样。GPT-4 的即时分发可为数亿知识工作者带来近乎即时的采用与近乎即时的生产力提升。
就技术而言,GPT-4 将内置更多的参数,而这需要将更多处理器和内存捆绑在一起,并用更多的数据进行训练。 GPT-1 的训练量是 4.6 GB 数据,GPT-2 的训练量是 46 GB 数据,GPT-3 的训练量是 750 GB 数据。GPT-4 的训练量将更可观,也许要占互联网的很大一部分。正如 OpenAI 已经了解到的那样,从很多方面来说,更大意味着更好,每次迭代的输出都会越来越像人类。 GPT-4 会变成一个怪物。
但它能解决我们之前看到的问题吗?我不太确定。
尽管 GPT-4 看起来肯定要比它的前辈更聪明,但它的内部架构问题依旧。我怀疑我们会看到一个熟悉的模式:一开始火爆异常,接着接受更仔细的科学审查,然后是大家认识到许多问题仍然存在。
据我掌握的小道消息,GPT-4 在架构上与 GPT-3 基本相同。如果是这样的话,可以预期这种方法仍然会受到其根本缺陷的困扰,即没法构建反映世界运作机制的内部模型,所以应该可以预见它没法在抽象层面上理解事物。GPT-4 可能更擅长于伪造学期论文,但如果它沿用与前辈相同的剧本的话,它仍然不能真正了解世界,它最终会露馅。
因此,尽管许多 AI 社区弥漫着对 GPT-4 的巨大乐观情绪,但我的看法相反,我的七个预测会比较黑暗:
GPT-4 仍旧会像它的前辈一样,是闯进瓷器店里的那头公牛,鲁莽,难以控制,仍然会以难以完全预测的方式,犯大量让你直摇头的愚蠢错误。一般它会做你想做的事,但有时又不会——而且仍然很难提前预料到会还是不会……
对物理、心理和数学世界的推理仍旧不可靠,GPT-3 在心智理论、医学和物理推理方面已经受到挑战。之前基准测试用到的许多个别特定挑战 GPT-4 将能够解决,但仍然会被绊倒,尤其是在更长、更复杂的场景下。如果你问它医学问题,它要么拒绝回答(如果护栏很有侵略性的话),要么偶尔吐出看似合理但却很危险的废话。尽管它已经吞噬了互联网很大一部分内容,但仍不够可信,不够完整,无法提供可靠的医疗建议。
流畅幻象(fluent hallucinations)仍旧很普遍,而且很容易被诱发,大型语言模型被用作制造看似合理但却是虚假的错误信息的工具,这个风险仍旧存在且会加剧。护栏(类似于 ChatGPT)也许已经就位,但会在太弱(被“越狱”打败)和太强(拒绝一些完全合理的请求)之间摇摆不定。不管是哪种情况,不端行为者最终都能够复制 GPT-4 大部分的内容,放弃任何现有的护栏,并用仿冒系统来创作出他们想要的任何叙述。
它的自然语言输出仍然无法可靠地勾住下游程序;比方说,你没法像数据库或虚拟助手那样直接连接,然后就能得到可预测的结果。 GPT-4 不会拥有它所讨论的事物的可靠模型,让外部程序员可以访问这些模型,可靠地为下游流程提供支持。构建虚拟助手之类的东西的人,会发现他们没法足够可靠地将用户语言映射成用户意图。
GPT-4本身不会是一个能解决任意任务的通用人工智能。如果没有外部辅助,它既不能在《强权外交》(Diplomacy)游戏中击败 Meta 的 Cicero;也没法可靠地驾驶汽车;不能可靠地引导像《变形金刚》里的“擎天柱”那样的机器人,变得像《杰森一家》里的“Rosie”一样多才多艺。它仍然只是一台经过涡轮增压的东拼西凑生成器,一个提供头脑风暴和初稿的好工具,但不是值得信赖的通用智能。
人类想要的与机器所做的之间的“对齐”,会继续成为一个关键且悬而未决的问题。该系统仍将无法限制其输出,让结果可靠地遵循一系列人类共有的价值观,如乐于助人、无害性以及真实性等。隐藏着偏见的例子会在几天或几个月内被发现。其中的部分建议会让人抓狂。
当 AGI(通用人工智能)到来时,事后看来,像 GPT-4 这样的大型语言模型可能会被视为最终解决方案的一部分,但也只能作为解决方案的一部分。单独的“扩展”,也就是建立更大规模的模型,直到吸收整个互联网的内容,会被证明是有用的,但也只是在一定程度上有用。值得信赖、与人类价值观保持一致的通用人工智能,届时会来自结构化程度更高、内置知识更多的系统,并至少结合了一定程度的用于推理和规划的显式工具,这些都是 GPT 等系统所缺乏的。在十年,或许更短的时间内,人工智能的重点将从纯粹关注扩展大型语言模型,转移到关注将它们与广泛的其他技术集成。等到了 2043 年撰写回顾的时候,知识史学家将会得出结论,一开始我们的研究方向过于强调大型语言模型,然后钟摆逐渐摆向具有更深理解力、更结构化的系统,这是关键转变。
如果所有七个预测都被证明是正确的话,我希望这个领域最终能意识到,是时候继续前进了。
酷炫的东西玩起来总是很有趣,我完全可以预期 GPT-4 会是迄今为止最酷炫的一个,但这并不意味着它是我们朝着可信任的 AI 迈出的最佳路径上的关键一步。为此,我预测,我们需要真正的新架构,需要将显式的知识和世界模型吸收进它的内核才能走到那一步。
译者:boxi。