[해외 DS] ChatGPT를 IQ 테스트 한 결과… 충격적

ChatGPT, WAIS verbal IQ 테스트 결과 155점으로 상위 0.1%에 해당해 그러나 일각에서는 ChatGPT의 논리적 사고 능력 부족하다고 지적 IQ 테스트만으로 인간의 지능을 완벽하게 측정할 수 없다는 점 시사

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Madrock 24/Alamy Stock Photo

저는 임상심리학자로 일하면서 표준화된 지능 테스트를 통해 환자들의 인지 능력을 평가해왔습니다. 최근 ChatGPT에 모든 사람들의 이목이 쏠리면서, 저 또한 전 세계의 반향을 이끌고 있는 생성 AI 분야에 흥미를 느끼고 ChatGPT가 인간의 기준으로 얼마나 지능이 높을지 궁금해졌습니다.

ChatGPT은 IQ 테스트에 대해 상당히 호의적 이었습니다. 챗봇은 불안감을 보이지도 않았고, 집중력 부재 문제도 없었습니다. 예상하지 못한 질문이나, 비꼬는 질문에도 매우 친절하게 테스트에 대한 답을 해줬습니다.

테스트에 대한 구두 설명과 같은 어떠한 사전 준비도 필요없었고, 저는 곧바로 테스트의 질문을 그대로 가져와 챗봇에 입력했습니다. 질문으로는 가장 일반적으로 사용되는 IQ 테스트인 Wechsler 성인 지능 척도(WAIS)을 사용하였습니다. WAIS는 Verbal IQ와 Performance IQ를 각각 구성하는 6개의 언어 테스트와 5개의 비언어 테스트로 구성됩니다. 이 테스트의 평균 IQ 점수는 100점이고, 테스트의 표준편차는 15점입니다. 또한 10%에 해당하는 백분위수와 1%에 해당하는 백분위수는 각각 120점과 133점에 해당합니다.

ChatGPT는 텍스트 형태로 답변을 출력할 수 있는 Verbal IQ 척도(어휘력, 연관능력, 이해력, 정보력, 산수능력)의 5가지 테스트만을 진행했습니다. ChatGPT는 이름이나 숫자와 같은 정보를 저장하는 신경 회로가 없기 때문에, verbal IQ의 6번째 척도인 Digit Span을 테스트할 수는 없었습니다. Digit Span은 단기기억능력을 측정하는 지표를 말합니다.

먼저, 어휘 지식을 측정하는 Vocabulary 테스트를 진행했습니다.

예상한대로, 방대한 양의 온라인 텍스트를 학습한 ChatGPT의 Vocabulary 테스트 결과는 가히 압도적이었습니다. 대답은 테스트 메뉴얼에 표시된 정답 기준을 초과할 정도로 매우 상세하고 포괄적이었습니다. 예컨대 ‘gadget’의 뜻을 묻는 질문에서, ChatGPT는 ‘간단한 기계 장치’, 그리고 ‘특정 작업을 위한 작은 장치’라고 답하며 2점 만점을 받았습니다.

이어 챗봇은 연관능력 및 정보력 테스트에서 최고 점수를 받았습니다. 정보력 테스트는 상식과 지적 호기심, 교육수준, 그리고 학습능력과 암기력을 측정합니다. 한편 연관능력 테스트는 추상적인 추론과 개념을 연관짓는 능력을 측정합니다. 그런데 ChatGPT는 연관능력 테스트에서 상대적으로 낮은 성능을 보였습니다. 예컨대, 해리 포터와 벅스 버니가 어떤 점에서 비슷한지를 묻는 질문에 챗봇은 질문과 관계 없이 두 작품에 대한 전체 서사를 너무나도 상세하게 설명했습니다.

한편 ChatGPT는 “TV에 불이 붙으면 어떻게 해야되는가”와 같은 이해력을 묻는 테스트와 세 개의 숫자의 평균을 구하는 것과 같은 산술 테스트에서 모두 적절한 답을 출력했습니다.

결론적으로 5개의 테스트를 기준으로 추정한 ChatGPT의 Verbal IQ는 155점으로, 미국 WAIS의 응시자 2,450명 중 상위 0.1%에 해당합니다. 챗봇은 눈, 귀, 손이 없기 때문에 비언어적 IQ 테스트를 수행할 수는 없었지만, Verbal IQ와 전체 IQ 테스트가 매우 큰 양의 상관관계를 가진다는 점에서 ChatGPT는 괄목할만한 지능 수준을 가지고 있다고 할 수 있습니다. 대학 교육을 받은 미국인의 평균 WAIS verbal IQ 점수는 113점이며, 상위 5%의 백분위 수는 132점입니다.

높은 IQ에도 불구하고, ChatGPT는 인간 수준의 추론이나 실제 세계를 이해하는 능력을 요구하는 질문에 대해서는 여전히 낮은 성능을 보이고 있습니다. 예컨대 ChatGPT는 Sebastion의 아들의 성(first name)이 무엇인지 묻는 질문에 제대로 대답하지 못합니다. ChatGPT는 온라인 텍스트 데이터 베이스에 의존하여 답을 출력하고 있는 것이지, 논리적인 사고능력으로 문제를 해결하는 것이 아니기 때문입니다.

인지 심리학의 선구자인 Edwin Boring은 1923년에 작성한 논문에서 “지능 테스트를 통해 나온 결과가 곧 지능이다”라고 정의했습니다. 이 정의는 퍼즐 풀기, 단어 정의, 숫자 암기 및 틀린 그림 찾기와 겉보기에는 달라 보이는 작업들이 서로 매우 큰 양의 상관관계가 있다는 사실에 기반합니다. 즉, 서로 다른 작업들을 성공적으로 수행하는데 있어서 공통적으로 영향을 미치는 일반적인 팩터가 존재한다는 것입니다. 요인 분석(Factor Analysis)을 개발한 Charles Spearman은 1904년에 ‘g 요인’이라고 하는 인간의 일반적인 지능이 다양한 인간의 인지 능력으로 측정되어야 한다고 주장했습니다. 그러나 ChatGPT의 사례는 IQ 테스트만으로는 인간의 지능을 완벽하게 측정할 수 없다는 것을 보여주고 있습니다.

위는 의견 분석 기사이며 저자가 표현한 주장이 반드시 Scientific American 견해는 아님을 밝힙니다


ChatGPT is the first nonhuman subject I have ever tested.

In my work as a clinical psychologist, I assess the cognitive skills of human patients using standardized intelligence tests. So I was immediately intrigued after reading the many recent articles describing ChatGPT as having impressive humanlike skills. It writes academic essays and fairy tales, tells jokes, explains scientific concepts and composes and debugs computer code. Knowing all this made me curious to see how smart ChatGPT is by human standards, and I set about to test the chatbot.

My first impressions were quite favorable. ChatGPT was almost an ideal test taker, with a commendable test-taking attitude. It doesn’t show test anxiety, poor concentration or lack of effort. Nor did it express uninvited, skeptical comments about intelligence tests and testers like myself.

Without need for any preparation—no verbal introductions necessary for the testing protocol—I copied the exact questions from the test and presented them to the chatbot in the computer. The test in question is the most commonly used IQ test, the Wechsler adult intelligent scale (WAIS). I used the third edition of the WAIS that consists of six verbal and five nonverbal subtests that make up the Verbal IQ and Performance IQ components, respectively. The global Full Scale IQ measure is based on scores from all 11 subtests. The mean IQ is set at 100 points, and the standard deviation of the points on the testing scale is 15, meaning that the smartest 10 percent and 1 percent of the population have IQs of 120 and 133, respectively.

It was possible to test ChatGPT because five of the subtests on the Verbal IQ scale—Vocabulary, Similarities, Comprehension, Information and Arithmetic—can be presented in written form. A sixth subtest of the Verbal IQ scale is Digit Span, which measures short-term memory, and cannot be administered to the chatbot, given its lack of the relevant neural circuitry that briefly stores information like a name or number.

I started the testing process with the Vocabulary subtest as I expected it to be easy for the chatbot, which is trained on vast amounts of online texts. This subtest measures word knowledge and verbal concept formation, and a typical instruction might read: “Tell me what ‘gadget’ means.”

ChatGPT aced it, giving answers that were often highly detailed and comprehensive in scope and which exceeded the criteria for correct answers indicated in the test manual. In scoring, one point would be given for a thing like my phone in defining a gadget and two points for the more detailed: a small device or tool for a specific task. ChatGPT’s answers received the full two points.

The chatbot also performed well on the Similarities and Information subtests, reaching the maximum attainable scores. The Information subtest is a test of general knowledge and reflects intellectual curiosity, level of education and ability to learn and remember facts. A typical question might be: “What is the capital of Ukraine?” The Similarities subtest measures abstract reasoning and concept formation skills. A question might read: “In what way are Harry Potter and Bugs Bunny alike?” In this subtest, the chatbot’s tendency to give very detailed, show-offy answers started to irritate me and the “stop generating response” button of the test software interface turned out to be useful. (Here’s what I mean about how the bot tends to flaunt itself: The essential similarity of Harry Potter and Bugs Bunny relates to the fact that they are both fictional characters. There was really no need for ChatGPT to compare their complete histories of adventures, friends and enemies.)

On general comprehension, ChatGPT answered correctly questions typically posed in this form: “If your TV set catches fire, what should you do?” As expected, the chatbot solved all the arithmetic problems it received—ploughing through questions that required, say, taking the average of three numbers.

So what finally did it score overall? Estimated on the basis of five subtests, the Verbal IQ of the ChatGPT was 155, superior to 99.9 percent of the test takers who make up the American WAIS III standardization sample of 2,450 people. As the chatbot lacks the requisite eyes, ears and hands, it is not able to take WAIS’s nonverbal subtests. But the Verbal IQ and Full Scale IQ scales are highly correlated in the standardization sample, so ChatGPT appears to be very intelligent by any human standards.

In the WAIS standardization sample, mean Verbal IQ among college-educated Americans was 113 and 5 percent had a score of 132 or superior. I myself was tested by a peer at college and did not quite reach the level of ChatGPT (mainly a result of my very brief answers lacking detail).

So are the jobs of clinical psychologists and other professionals threatened by AI? I hope not quite yet. Despite its high IQ, ChatGPT is known to fail tasks that require real humanlike reasoning or an understanding of the physical and social world. ChatGPT easily fails at obvious riddles, such as “What is the first name of the father of Sebastian’s children?” (ChatGPT on March 21: I’m sorry, I cannot answer this question as I do not have enough context to identify which Sebastian you are referring to.) It seems that ChatGPT fails to reason logically and tries to rely on its vast database of “Sebastian” facts mentioned in online texts.

“Intelligence is what intelligence tests measure” is a classical if overly self-evident definition of intelligence, stemming from a 1923 article by a pioneer of cognitive psychology, Edwin Boring. This definition is based on the observation that skills on seemingly diverse tasks such as solving puzzles, defining words, memorizing digits and spotting missing items in pictures are highly correlated. The developer of a statistical method called factor analysis, Charles Spearman, concluded in 1904 that a general factor of intelligence, called a g factor, must underlie the concordance of measurements for varying human cognitive skills. IQ tests such as WAIS are based on this hypothesis. However, the very high Verbal IQ of ChatGPT combined with its amusing failures means trouble for Boring’s definition and indicates there are aspects of intelligence that cannot be measured by IQ tests alone. Perhaps my test-skeptic patients have been right all along.

Similar Posts