[해외DS] 새로운 AI GPT-4가 할 수 있는 것 (2)

오픈AI, GPT-4 개선 과정 밝히지 않아… 경쟁적인 생성 AI 시장 환경이 투명성 낮춰 더 스마트한 챗봇 위한 더 튼튼한 가드레일 필요해, 오픈AI 제한 뒀지만 우회 방법은 밝혀졌다 뉴욕대 마커스 교수, “이 영화를 전에 본 적이 있음을 깨닫고, 처음의 열정을 누그러뜨려야 한다”

1
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Anatolii Riabokon/Alamy Stock Vector

[해외DS] 새로운 AI GPT-4가 할 수 있는 것 (1)에서 이어집니다.

하지만 모델이 지닌 창의성의 한계는 메이 교수의 다른 테스트에서 밝혀졌습니다. 그가 특정한 종류의 소네트(유럽 정형시의 한 갈래)를 쓰라고 요청했을 때(이탈리아 시인 페트라르카(Petrarch) 스타일로 쓰라고 했다네요.) 그러한 시적 설정에 익숙하지 않은 GPT-4는 기본적으로 셰익스피어가 선호하는 소네트 형식을 사용했습니다.

물론 이와 같은 특정한 문제를 해결하는 건 상대적으로 간단합니다. GPT-4한테 추가적인 시적 형식을 가르치기만 하면 끝나죠. 사실 이런 식으로 인간이 모델의 실패를 유도하는 건 프로그램의 발전에 도움이 됩니다. 모델은 ‘비공식 테스터’가 시스템에 입력하는 모든 것에서 배울 수 있습니다. 유창성이 떨어졌던 기존 모델처럼 GPT-4는 원래 다량의 데이터로 교육받았고, 이러한 교육은 인간 테스터의 개입으로 개선됐습니다. (GPT는 Generative Pretrained Transformer의 약자로, 사전에 훈련된 생성 변환기라는 뜻입니다.)

하지만 오픈AI는 어떻게 해서 GPT-4를 GPT-3.5, 즉 자사의 인기 챗봇 챗GPT의 기반이 된 모델보다 개선할 수 있었는지를 공개하지 않았습니다. 신모델 출시와 함께 발간된 논문에서 “경쟁적인 시장 환경과 GPT-4 같은 대형 모델의 안전 함의를 감안하여 이 보고서에는 아키텍처(모델의 크기 포함), 하드웨어, 교육 컴퓨팅, 데이터 세트 구축, 교육 방법 등에 대한 추가적인 세부 정보를 싣지 않았습니다.”라는 언급이 확인될 뿐이죠. 이처럼 오픈AI가 투명성이 부족한 선택을 내렸다는 사실은 새롭게 조성된 경쟁적인 생성 AI 시장 환경, 즉 GPT-4가 구글의 바드(Bard), 메타의 라마(LLaMA)와 같은 프로그램과 경쟁해야 한다는 현실을 반영합니다. 그렇지만 회사 측은 보고서를 통해 이러한 세부 정보를 궁극적으로는 제3자, 즉 “경쟁 및 안전상의 고려 사항과… 투명성을 높인다는 것의 과학적인 가치를 저울질하는 방법에 대해 회사 측에 조언해 줄 수 있는” 사람과 공유할 계획이라고 밝혔습니다.

더 ‘스마트한’ 챗봇은 더 큰 악영향을 줄 수 있습니다. 따라서 이러한 안전상의 고려 사항은 정말 중요한데요, ‘가드레일’이 없다면 챗봇은 테러리스트에게 폭탄 제조 방법을 알려 주거나, 일종의 “괴롭힘 캠페인(harassment campaign)”을 위한 위협적인 메시지를 대량으로 생산하거나, 선거에 개입하려는 외국 요원에게 잘못된 정보를 제공할지도 모릅니다. 오픈AI가 이런 일을 방지하기 위해 GPT 모델이 어떤 것을 말할 수 있는지에 제한을 두기는 했지만, 집요한 이용자들은 이를 우회하는 방법을 찾아냈습니다. 과학자이자 작가인 뉴욕 대학교의 게리 마커스(Gary Marcus) 교수는 GPT-4가 출시되기 직전에 사이언티픽 아메리칸에 “(버전) 4라고 해서 그게 달라질 거라고 생각하지 않는다”고 전하기도 했습니다.

아울러 이 봇들이 더 인간처럼 보이게 되면 더 많은 사람들이 봇의 배후, 즉 컴퓨터 화면 뒤에 어떤 지성체가 존재한다는 잘못된 믿음을 갖게 될 수 있습니다. 비 교수는 “(챗봇은) 언어를 통해 (인간의 추론)을 굉장히 잘 모방하기 때문에 우리는 그것을 믿습니다. 사람들이 이러한 환상, 즉 AI 에이전트가 인간처럼 추론할 수 있다는 것에 속아넘어간다면 이들은 챗봇의 대답을 더 쉽게 믿을 수 있습니다. 아직 이들이 내놓는 응답이 정확하다는 보장이 없기에 이건 중요한 문제가 됩니다.”라고 말했습니다. 또한 메이 교수는 “이 모델들이 아무 말이나 한다고 해서 그들이 말하는 것이 (사실)이란 건 아닙니다.”라며 “이러한 모델이 답변할 때 참조하는 데이터베이스는 존재하지 않습니다.”라고 덧붙였습니다. GPT-4 같은 시스템은 제공된 교육 데이터에 기반해 한 번에 한 단어씩, 가장 그럴듯한 단어를 붙여 가면서 답변을 생성합니다. 이 교육 데이터는 언제든 구식이 될 수 있죠. 메이 교수는 “제가 봤을 때 GPT-4는 자신이 GPT-4라는 사실조차 모릅니다. 그렇게 물어보니까 ‘아니, 아니, GPT-4 같은 건 없어. 나는 GPT-3이야.’라고 대답하더군요.”라고 전했습니다.

모델이 공개되면서 수많은 연구원과 AI 애호가들은 GPT-4의 강점과 약점을 조사할 기회를 얻게 되었습니다. GPT-4를 다른 애플리케이션에서 사용하려는 개발자는 별도의 액세스를 신청할 수 있지만, GPT-4와 “대화”만 하려는 사람은 챗GPT 플러스에 가입해야 합니다. 월 구독료는 20달러인데, 구독자는 GPT-3.5에 기반한 챗봇과 GPT-4에 기반한 챗봇 중 뭘 쓸지를 선택할 수 있습니다.

이러한 ‘탐색 과정’은 분명히 GPT-4를 활용할 수 있는 더 많은 잠재적인 응용 프로그램과 더 많은 결함을 찾아낼 것입니다. 마커스 교수는 “진짜 질문은 ‘초기 충격 두 달 뒤, 사람들은 (GPT-4)를 어떻게 생각할 것인가’입니다.”라며 “하나 조언을 드리자면, 이 영화(챗GPT 열풍을 의미하는 듯 합니다.)를 전에 본 적이 있음을 깨닫고, 처음의 열정을 누그러뜨려야 합니다. 데모 버전을 개발하는 건 항상 쉽고, 그것을 실제로 제품화하는 건 어렵습니다. 또한 환각, 물리적 세계, 의료 세계 등을 실제로 이해하지 못하는 등의 문제가 여전히 존재한다면 그 유용성은 여전히 다소 제한될 것입니다. 그리고 이건 여전히 당신이 ‘(GPT-4가) 어떻게 사용되고, 무엇을 위해 사용되는지에 대해 주의를 기울여야 한다는 뜻이죠.”라고 덧붙였습니다. 과연 GPT-4는 우리에게 어떤 존재가 될까요? 조금 더 기다려 봐야겠습니다.


In another test, the model showed the limits of its creativity. When May asked it to write a specific kind of sonnet—he requested a form used by Italian poet Petrarch—the model, unfamiliar with that poetic setup, defaulted to the sonnet form preferred by Shakespeare.

Of course, fixing this particular issue would be relatively simple. GPT-4 merely needs to learn an additional poetic form. In fact, when humans goad the model into failing in this way, this helps the program develop: it can learn from everything that unofficial testers enter into the system. Like its less fluent predecessors, GPT-4 was originally trained on large swaths of data, and this training was then refined by human testers. (GPT stands for generative pretrained transformer.) But OpenAI has been secretive about just how it made GPT-4 better than GPT-3.5, the model that powers the company’s popular ChatGPT chatbot. According to the paper published alongside the release of the new model, “Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.” OpenAI’s lack of transparency reflects this newly competitive generative AI environment, where GPT-4 must vie with programs such as Google’s Bard and Meta’s LLaMA. The paper does go on to suggest, however, that the company plans to eventually share such details with third parties “who can advise us on how to weigh the competitive and safety considerations … against the scientific value of further transparency.”

Those safety considerations are important because smarter chatbots have the ability to cause harm: without guardrails, they might provide a terrorist with instructions on how to build a bomb, churn out threatening messages for a harassment campaign or supply misinformation to a foreign agent attempting to sway an election. Although OpenAI has placed limits on what its GPT models are allowed to say in order to avoid such scenarios, determined testers have found ways around them. “These things are like bulls in a china shop—they’re powerful, but they’re reckless,” scientist and author Gary Marcus told Scientific American shortly before GPT-4’s release. “I don’t think [version] four is going to change that.”

And the more humanlike these bots become, the better they are at fooling people into thinking there is a sentient agent behind the computer screen. “Because it mimics [human reasoning] so well, through language, we believe that—but underneath the hood, it’s not reasoning in any way similar to the way that humans do,” Vee cautions. If this illusion fools people into believing an AI agent is performing humanlike reasoning, they may trust its answers more readily. This is a significant problem because there is still no guarantee that those responses are accurate. “Just because these models say anything, that doesn’t mean that what they’re saying is [true],” May says. “There isn’t a database of answers that these models are pulling from.” Instead, systems like GPT-4 generate an answer one word at a time, with the most plausible next word informed by their training data—and that training data can become outdated. “I believe GPT-4 doesn’t even know that it’s GPT-4,” he says. “I asked it, and it said, ‘No, no, there’s no such thing as GPT-4. I’m GPT-3.’”

Now that the model has been released, many researchers and AI enthusiasts have an opportunity to probe GPT-4’s strengths and weaknesses. Developers who want to use it in other applications can apply for access, and anyone who wants to “talk” with the program will have to subscribe to ChatGPT Plus. For $20 per month, this paid program lets users choose between talking with a chatbot that runs on GPT-3.5 and one that runs on GPT-4.

Such explorations will undoubtedly uncover more potential applications—and flaws—in GPT-4. “The real question should be ‘How are people going to feel about it two months from now, after the initial shock?’” Marcus says. “Part of my advice is: let’s temper our initial enthusiasm by realizing we have seen this movie before. It’s always easy to make a demo of something; making it into a real product is hard. And if it still has these problems—around hallucination, not really understanding the physical world, the medical world, etcetera—that’s still going to limit its utility somewhat. And it’s still going to mean you have to pay careful attention to how it’s used and what it’s used for.”

Similar Posts