[해외DS] 새로운 AI GPT-4가 할 수 있는 것 (1)

오픈AI, 기존 버전 개선한 GPT-4 출시… 이미지도 처리하고 창의력 개선돼 CEO샘 알트만, GPT-4는 현재까지 개발한 모델 중 “가장 유능하고 정렬된” 모델이다 도안 보고 웹사이트 코드 짜고, 시험에서 우수한 성적 거두고, 배크로님 만들어내기도 해

2
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Anatolii Riabokon/Alamy Stock Vector

최근 테크 리서치 기업 오픈AI가 기존 텍스트 생성 인공 지능 프로그램의 업그레이드 버전인 GPT-4를 출시했습니다. 신기능 일부를 시연하기도 했는데요, GPT-4는 더 자연스러운 텍스트를 만들어내고, 기존 프로그램보다 정확하게 문제를 해결할뿐더러 텍스트가 아닌 이미지도 처리할 수 있다고 합니다. 하지만 GPT-4 역시 이전의 GPT 모델이 겪었던 고질적인 문제를 해결하지는 못했습니다. 편견을 내보이고, 공격적이거나 위험한 말을 하고, “환각”을 방지하기 위해 만들어 둔 가드레일을 뛰어넘고, 훈련 데이터에 존재하지 않는 거짓을 자신있게 만들어내는 것 말입니다.

오픈AI의 CEO 샘 알트만(Sam Altman)은 자신의 트위터에서 이 모델을 현재까지 회사가 개발한 “가장 유능하고 정렬된” 모델이라고 설명했습니다. (여기서 “정렬된” 모델이란 건 이 모델이 인간의 윤리를 따르도록 설계되었다는 뜻입니다.) 하지만 알트만 CEO는 GPT-4가 “여전이 결함이 있고 여전히 제한적이며, 처음 사용할 때 더 인상적이고 오래 쓸수록 흥미가 떨어지는 존재인 것도 여전하다.”고 덧붙였습니다.

아마도 가장 중요한 변화는 “다중 모드”, 즉 GPT-4가 텍스트와 이미지 모두를 처리할 수 있게 됐다는 점일 것입니다. GPT-4는 DALL-E나 스테이블 디퓨전(Stable Diffusion) 같은 생성 AI 모델처럼 사진을 출력할 순 없지만 들어오는 시각적 입력을 처리하고 응답할 수 있습니다. 피츠버그 대학의 영어과 부교수이자 ‘계산’과 ‘작문’의 교차점을 연구하는 아네트 비(Annette Vee)는 GPT-4가 유머러스한 이미지가 왜 재미있는지를 알려 달라는 질문에 대답하는 시연 과정을 지켜봤습니다. 비 교수는 이같은 기능은 GPT-4가 “이미지의 맥락을 이해”하는 것을 의미한다며 “(GPT-4는) 이미지가 어떻게, 왜 구성되는지를 이해하고 그것을 언어에 대한 사회적 이해와 연결합니다. 챗GPT(ChatGPT)는 그렇게 할 수 없었죠.”라고 덧붙였습니다.

이미지를 분석하고 설명하는 기능을 갖춘 장치는 시각 장애인에게 엄청난 도움을 줄 수 있습니다. 일례로 비 마이 아이즈(Be My Eyes)라는 모바일 앱은 사용자 주변의 물체를 설명할 수 있어 눈이 잘 보이지 않거나 아예 보이지 않는 이들이 주변 환경을 이해할 수 있도록 도와줍니다. 최근 GPT-4는 이 앱의 “가상 자원봉사자”가 됐는데, 오픈AI의 웹 사이트에 따르면 “인간 자원 봉사자와 동일한 수준의 맥락과 이해를 생성할 수 있습니다.”

하지만 GPT-4의 이미지 분석은 단순히 그림을 설명하는 정도가 아닙니다. 오픈AI 담당자는 비 교수가 봤던 그 시연에서 간단한 웹 사이트의 도안을 스케치한 뒤 GPT-4에게 보여주고, 이 웹 사이트를 만들기 위해 필요한 코드를 작성하라고 명령했습니다. 놀랍게도 GPT-4는 이를 실제로 수행했는데요, GPT-4가 만들어낸 코드는 서던캘리포니아 대학교의 연구 부교수인 조나단 메이(Jonathan May)의 입을 빌리자면 “기본적으로 이미지와 비슷해 보이는 웹 사이트를 만들어냈습니다. 그 웹 사이트는 아주아주 간단했지만 꽤 잘 작동했습니다.” 메이 교수는 “그래서 멋졌다.”라고 덧붙였습니다.

GPT-4에는 다중 모드 기능이 없지만, 추론과 문제 해결이 필요한 작업에서 이전 프로그램보다 뛰어난 성능을 보입니다. 오픈AI는 GPT-3.5와 GPT-4가 예비 변호사가 치는 모의 변호사 시험, 고등학생이 보는 SAT 시험과 AP 시험, 대졸자가 보는 GRE 시험 같은 몇 가지 유명한 시험들을 비롯해 인간을 위해 만들어진 다양한 시험을 치도록 지시했습니다. 참, 여기에는 심지어 소믈리에 시험도 포함됐습니다.

놀랍게도 GPT-4는 이 수많은 ‘벤치마크’ 테스트에서 인간 뺨치는 점수를 얻었습니다. 이전 세대는 확실히 능가했죠. 물론 영어나 문학 시험에서는 상대적으로 낮은 점수를 받았지만, GPT-4가 지닌 광범위한 문제 해결 능력은 현실 세계의 수많은 문제에 적용될 수 있습니다. 복잡한 일정 관리, 코드 블록에서 오류 찾아내기, 외국어 학습자에게 문법적인 뉘앙스 설명하기, 보안 취약점 식별하기 같은 문제 말입니다.

또한 오픈AI에 따르면 새로운 모델은 25,000개 이상의 단어로 구성된 더 긴 텍스트 블록을 한 번에 해석하고 출력할 수 있습니다. 원래도 있었던 기능이지만 기존 모델은 종종 자기가 뭘 말하고 있는지를 잊어버렸습니다. 아울러 회사 측은 GPT-4의 “창의성”도 강조했습니다. 특정한 스타일로 다양한 종류의 예술적 콘텐츠를 제작할 수 있다는데요, 비 교수는 GPT-3.5와 GPT-4가 아르헨티나 작가 호르헤 루이스 보르헤스(Jorge Luis Borges)의 문체를 영어 번역문에서 어떻게 모방했는지를 비교하는 대목에서 최신 버전이 더 정확한 결과물을 내놓았다고 말했습니다. 그는 “그걸 판단하려면 맥락을 충분히 이해해야 합니다.”라며 “학부생은 왜 최신 버전이 더 좋은지 이해하지 못하겠지만 저는 영어 교수입니다… 만약 당신이 당신의 지식 안에서 그것을 이해하고, 당신의 지식 안에서 그것이 인상적이라는 느낌을 받았다면 그건 인상적인 것입니다.”라고 덧붙였습니다. GPT-4가 일반인이 알기 쉽지 않은 부분까지 잡아냈다는 건데요, 정말 대단하네요.

한편 메이 교수는 GPT-4의 독창성을 직접 테스트했습니다. “배크로님(backronym; 단어를 구성하는 각각의 문자를 가지고 새로운 약어를 만들어내는 것. 즉 어떤 약어에 의미를 부여하는 것)”을 만들어 달라고 한 건데, 구체적으로 “‘CUTE LAB NAME’으로 표현되면서 내 연구 분야를 정확하게 설명할 수 있는 귀여운 실험실 이름을 지어 줘”라고 요청했다고 합니다. 메이 교수는 GPT-3.5는 관련된 레이블을 생성하지 못했지만, GPT-4는 “Computational Understanding and Transformation of Expressive Language Analysis, Bridging NLP, Artificial intelligence And Machine Education(컴퓨팅 이해 및 표현 언어 분석의 변환, NLP 연결, 인공 지능 및 기계 교육)”이라는 답변을 내놓으며 보란 듯이 성공했다고 전했습니다. 그는 “‘Machine Education’은 별로입니다. 그리고 ‘intelligence’ 부분은 추가적인 문자가 될 수도 있죠(NAME이 아니라 NAIME이 된다는 뜻입니다.). 그렇지만 솔직히 말해서 전 훨씬 더 나쁜 것도 봤습니다.”라고 덧붙였습니다. (참고로 CUTE LAB NAME은 메이 교수 연구실의 실제 이름이라고 합니다. Center for Useful Techniques Enhancing Language Applications Based on Natural And Meaningful Evidence(자연스럽고 의미 있는 증거에 기반해 언어 응용을 발전시키는 유용한 기술 센터)의 약자라고 하네요. 참 유쾌한 교수님이시네요.)

[해외DS] 새로운 AI GPT-4가 할 수 있는 것 (2)로 이어집니다.


Tech research company OpenAI has just released an updated version of its text-generating artificial intelligence program, called GPT-4, and demonstrated some of the language model’s new abilities. Not only can GPT-4 produce more natural-sounding text and solve problems more accurately than its predecessor. It can also process images in addition to text. But the AI is still vulnerable to some of the same problems that plagued earlier GPT models: displaying bias, overstepping the guardrails intended to prevent it from saying offensive or dangerous things and “hallucinating,” or confidently making up falsehoods not found in its training data.

On Twitter, OpenAI CEO Sam Altman described the model as the company’s “most capable and aligned” to date. (“Aligned” means it is designed to follow human ethics.) But “it is still flawed, still limited, and it still seems more impressive on first use than it does after you spend more time with it,” he wrote in the tweet.

Perhaps the most significant change is that GPT-4 is “multimodal,” meaning it works with both text and images. Although it cannot output pictures (as do generative AI models such as DALL-E and Stable Diffusion), it can process and respond to the visual inputs it receives. Annette Vee, an associate professor of English at the University of Pittsburgh who studies the intersection of computation and writing, watched a demonstration in which the new model was told to identify what was funny about a humorous image. Being able to do so means “understanding context in the image. It’s understanding how an image is composed and why and connecting it to social understandings of language,” she says. “ChatGPT wasn’t able to do that.”

A device with the ability to analyze and then describe images could be enormously valuable for people who are visually impaired or blind. For instance, a mobile app called Be My Eyes can describe the objects around a user, helping those with low or no vision interpret their surroundings. The app recently incorporated GPT-4 into a “virtual volunteer” that, according to a statement on OpenAI’s website, “can generate the same level of context and understanding as a human volunteer.”

But GPT-4’s image analysis goes beyond describing the picture. In the same demonstration Vee watched, an OpenAI representative sketched an image of a simple website and fed the drawing to GPT-4. Next the model was asked to write the code required to produce such a website—and it did. “It looked basically like what the image is. It was very, very simple, but it worked pretty well,” says Jonathan May, a research associate professor at the University of Southern California. “So that was cool.”

Even without its multimodal capability, the new program outperforms its predecessors at tasks that require reasoning and problem-solving. OpenAI says it has run both GPT-3.5 and GPT-4 through a variety of tests designed for humans, including a simulation of a lawyer’s bar exam, the SAT and Advanced Placement tests for high schoolers, the GRE for college graduates and even a couple of sommelier exams. GPT-4 achieved human-level scores on many of these benchmarks and consistently outperformed its predecessor, although it did not ace everything: it performed poorly on English language and literature exams, for example. Still, its extensive problem-solving ability could be applied to any number of real-world applications—such as managing a complex schedule, finding errors in a block of code, explaining grammatical nuances to foreign-language learners or identifying security vulnerabilities.

Additionally, OpenAI claims the new model can interpret and output longer blocks of text: more than 25,000 words at once. Although previous models were also used for long-form applications, they often lost track of what they were talking about. And the company touts the new model’s “creativity,” described as its ability to produce different kinds of artistic content in specific styles. In a demonstration comparing how GPT-3.5 and GPT-4 imitated the style of Argentine author Jorge Luis Borges in English translation, Vee noted that the more recent model produced a more accurate attempt. “You have to know enough about the context in order to judge it,” she says. “An undergraduate may not understand why it’s better, but I’m an English professor…. If you understand it from your own knowledge domain, and it’s impressive in your own knowledge domain, then that’s impressive.”

May has also tested the model’s creativity himself. He tried the playful task of ordering it to create a “backronym” (an acronym reached by starting with the abbreviated version and working backward). In this case, May asked for a cute name for his lab that would spell out “CUTE LAB NAME” and that would also accurately describe his field of research. GPT-3.5 failed to generate a relevant label, but GPT-4 succeeded. “It came up with ‘Computational Understanding and Transformation of Expressive Language Analysis, Bridging NLP, Artificial intelligence And Machine Education,’” he says. “‘Machine Education’ is not great; the ‘intelligence’ part means there’s an extra letter in there. But honestly, I’ve seen way worse.” (For context, his lab’s actual name is CUTE LAB NAME, or the Center for Useful Techniques Enhancing Language Applications Based on Natural And Meaningful Evidence).

Similar Posts