ChatGPT智商155,超越99.9%的人类
时间:2023-04-10 20:10:04 热度:37.1℃ 作者:网络
《科学美国人》专栏记者Eka Roivainen最近写了一篇文章I Gave ChatGPT an IQ Test. Here’s What I Discovered,引发全球关注!通过给 chatGPT进行智商测试发现,它的智商高达155!超过99.9%的人类!
在我作为临床心理学家的工作中,我使用标准化智力测试评估人类患者的认知技能。 因此,在阅读了许多最近描述 ChatGPT 具有令人印象深刻的类人技能的文章后,我立即被吸引住了。 它撰写学术论文和童话故事、讲笑话、解释科学概念以及编写和调试计算机代码。 了解这一切让我好奇地想看看 ChatGPT 以人类标准衡量有多聪明,于是我开始测试聊天机器人。
我的第一印象非常好。 ChatGPT几乎是一个理想的应试者,应试态度值得称道。 它不会表现出考试焦虑、注意力不集中或缺乏努力。 它也没有表达对智力测试和像我这样的测试者不请自来的怀疑评论。
不需要任何准备——测试协议不需要口头介绍——我从测试中复制了确切的问题并将它们呈现给计算机中的聊天机器人。 有问题的测试是最常用的智商测试,即韦氏成人智能量表 (WAIS)。 我使用了 WAIS 的第三版,它由6个语言和5个非语言子测试组成,分别构成了言语智商和 操作智商。 受试者的总智商得分就取决于这11项子测试的得分。平均智商设定为 100 分,测试量表上各点的标准差为 15,这意味着最聪明的 10% 和 1% 的人口智商分别为 120 和 133。
图片来源:Dmcq via Wikimedia Commons,CC BY-SA 3.0)
之所以能够测试 ChatGPT,是因为 Verbal IQ 量表的五个子测试——词汇、相似性、理解、信息和算术——可以以书面形式呈现。 Verbal IQ 量表的第六个子测试是数字跨度,它测量短期记忆,并且不能对聊天机器人进行管理,因为它缺乏相关的神经回路来短暂存储信息,如姓名或数字。
我从词汇子测试开始了测试过程,因为我希望它对聊天机器人来说很容易,它接受了大量在线文本的训练。 该分测验衡量单词知识和语言概念形成,典型的说明可能是:“告诉我‘小工具’是什么意思。”
ChatGPT 胜出,给出的答案通常非常详细和范围广泛,超出了测试手册中指示的正确答案标准。 在评分中,像我的手机这样的东西在定义小工具时会得到一分,而更详细的东西会得到两分:用于特定任务的小型设备或工具。 ChatGPT 的回答得到了满分两分。
聊天机器人在相似性和信息子测试中也表现出色,达到了最高分。 信息分测验是对一般知识的测验,反映求知欲、教育水平以及学习和记忆事实的能力。 一个典型的问题可能是:“乌克兰的首都是哪里?” 相似性分测验衡量抽象推理和概念形成技能。 一个问题可能是:“哈利·波特和兔八哥有什么相似之处?” 在这个子测试中,聊天机器人给出非常详细、炫耀性答案的倾向开始让我恼火,结果证明测试软件界面的“停止生成响应”按钮很有用。 (这就是我所说的机器人如何炫耀自己的意思:哈利波特和兔八哥的本质相似之处在于他们都是虚构人物。ChatGPT 真的没有必要比较他们完整的冒险历史,朋友们 和敌人。)
在一般理解方面,ChatGPT 正确回答了通常以这种形式提出的问题:“如果你的电视机着火了,你应该怎么做?” 正如预期的那样,聊天机器人解决了它收到的所有算术问题——解决了需要取三个数字的平均值等问题。
那么它最终的总体得分是多少? 根据五个子测试估计,ChatGPT 的言语智商为 155,优于构成美国 WAIS III 标准化样本 2,450 人的 99.9% 的测试者。 由于聊天机器人缺少必要的眼睛、耳朵和手,它无法参加 WAIS 的非语言分测验。 但 言语智商和全功能智商在标准化样本中高度相关,因此 ChatGPT 似乎以任何人类标准衡量都非常聪明。
在 WAIS 标准化样本中,受过大学教育的美国人的平均语言智商为 113,5% 的得分为 132 或更高。 我自己在大学里接受了一位同学的测试,并没有完全达到 ChatGPT 的水平(主要是我的回答非常简短,缺乏细节)。
“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义,甚至可以说是过于显而易见的定义,源自认知心理学的先驱人物埃德温·波林(Edwin Boring)在1923年发表的一篇文章。这个定义是基于一个观察:解谜、说出单词的意思、记忆数字和找出图片中缺失的部分,完成这些任务所需的技能是高度相关的。
有一种名叫因素分析法这种统计学方法,是由心理学家查尔斯·斯皮尔曼(Charles Spearman)提出的。他曾在1904年得出结论,各种认知能力测试的结果之间存在一致性,背后一定有个一般智力因素,或者叫“g因素”,作为这种一致性的基础。像韦氏量表这样的智商测试,也是建立在这个假说的基础之上。然而,ChatGPT虽然有着极高的言语智商,却同时会犯令人捧腹的错误,这挑战了波林对智力的定义,说明智力当中有一些方面,仅靠智商测验无法衡量。我的一些患者,对智力测试抱有怀疑态度,他们可能从一开始就是对的。
如此高智商的硅基生命,未来再赋于多模态能力,还有什么不可能?
原始出处:
https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/