[해외DS] 오픈AI GPT-4 출시, 챗GPT 플러스에서 만난다 (2)

이용료 토큰 단위 책정, 컨텍스트 길이 늘어난 GPT-4-32k 이용료는 더 비싸 GPT-4, 이전보다 현실적이고 창의적인 응답 내놓는다 환각 생성하고 추론 오류 만들어 완전히 신뢰할 수 없는 건 여전해

20
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=AI Business

[해외DS] 오픈AI GPT-4 출시, 챗GPT 플러스에서 만난다 (1)에서 이어집니다.

GPT-4, 얼마면 됩니까?

오픈AI는 GPT-4의 이용료를 프롬프트 토큰 1,000개당 0.03달러, 완료 토큰 1,000개당 0.06달러로 책정했습니다. 속도 제한도 존재합니다. 기본적으로 1분에 최대 4만 개의 토큰, 최대 200개의 요청을 보낼 수 있습니다.

GPT-4의 컨텍스트 길이는 8,192토큰입니다. 그런데 오픈AI는 이 컨텍스트 길이를 32,768개로 늘린 버전인 GPT-4-32k에 대한 제한적인 액세스도 제공하고 있습니다. GPT-4-32k의 이용료는 기본 모델의 2배로 프롬프트 토큰 1,000개당 0.06달러, 완료 토큰 1,000개당 0.12달러입니다.

기능 파헤치기: GPT-4로 뭘 할 수 있나요?

오픈AI는 가벼운 대화를 할 때 GPT-3.5와 GPT-4가 내놓는 답변에는 “미묘한” 차이가 있다고 말했습니다. 그렇지만 어떤 경우에서는 그 격차가 확 벌어지기도 합니다. GPT-3.5가 명령의 뉘앙스를 처리하는 데 중점을 뒀다면, GPT-4는 현실적이고 좀더 창의적이기 때문입니다.

GPT-4는 로스쿨 입학 시험, AP 생물학, UBE(Uniform Bar Exam; 미국 변호사 시험 중 하나)를 비롯한 여러 모의 시험에서 GPT-3.5을 능가했습니다.

GPT-3.5와 GPT-4의 모의 시험 결과 일부/사진=오픈AI

GPT-4는 앞에서 언급했던 MMLU는 물론이고 HumanEval, DROP 등 다양한 머신 러닝 모델 벤치마크 테스트를 거쳤습니다. 오픈AI는 테스트 결과를 발표하며 GPT-4가 “기존 대형 언어 모델보다 훨씬 뛰어난 성능”을 갖고 있다고 주장했습니다.

GPT-4는 다중 작업 언어 이해 테스트에서 구글의 플랜팜(Flan-PaLM), 딥마인드(DeepMind)의 친칠라(Chinchilla)와 고퍼(Gopher)를 이겼습니다. 특히 오픈AI는 이 테스트를 조금 변형했는데, 영어로 되어 있는 MMLU의 객관식 문항 14,000개를 다양한 언어로 번역한 뒤 테스트에 이용했습니다. GPT-4의 테스트 결과는 테스트 대상 언어 26개 중 24개에서 다른 모델의 영어 테스트 결과를 능가했습니다. 영어뿐 아니라 저자원 언어인 라트비아어, 웨일스어, 스와힐리어 같은 언어로 된 문제도 훌륭하게 풀어낸 겁니다.

한편 오픈AI는 판매 및 콘텐츠 조정을 지원하기 위해 사내에서 GPT-4를 활용해 왔다고 합니다.

서레이(Surrey)대학교 산하 인간 중심 AI 연구소(The Institute for People-Centred AI) 소속 앤드류 로고스키(Andrew Rogoyski) 박사는 GPT-4가 챗GPT보다 우월한 코드 생성 능력을 가지고 있기 때문에 (코드 생성에 AI가) 상업적으로 활용되는 첫 사례가 될 수 있다고 생각합니다.

로고스키 박사는 “컴퓨터한테 당신이 개발한 최신 제품의 시장 반응을 예측하는 프로그램을 만들라는 명령을 내리기만 하면 된다고 상상해 보십시오. 프로그래밍은 더 이상 필요하지 않습니다. 이렇게만 된다면 많은 비즈니스에 혁신이 찾아올 것입니다.”라고 말했습니다.

또한 로고스키 박사는 GPT-4를 다룬 논문에는 “GPT-4가 일반적으로 몇 년 동안 교육을 받고 경력을 쌓아야 한다고 여겨지는 직업군, 예를 들면 법률 서비스 분야에도 영향을 줄 것이라는 기대”가 깔려 있다며 이러한 의견이 “전 세계 로펌의 등골을 오싹하게 만들지도 모른다”고 덧붙였습니다.

GPT-4의 한계

오픈AI CEO마저도 인정한 사실이죠, GPT-4 역시 이전 버전에 존재하는 결함, 즉 완전히 신뢰할 수 없다는 문제를 피해가지 못했습니다. 오픈AI가 만든 가장 진보된 언어 모델(정확히는 그럴 가능성이 있는 모델)인데도 말입니다. GPT-4는 여전히 거짓 정보(오픈AI에 따르면 “환각”)를 생성하고, 추론 오류를 만듭니다.

그렇지만 오픈AI에 따르면 GPT-4는 기존 모델보다 훨씬 적은 환각을 생성합니다. GPT-4는 오픈AI 내부에서 실시한 적대적 사실성 평가에서 GPT-3.5보다 40% 높은 점수를 받았습니다. 또한 TruthfulQA(모델이 적대적으로 선택된 잘못된 진술 모음에서 사실을 얼마나 잘 찾아내는지 평가하는 테스트) 벤치마크에서는 오픈AI의 최고 점수를 갈아치웠다고 합니다. 이 테스트 결과를 좀더 자세히 보면, 기본 GPT-4 모델은 GPT-3.5보다 약간 높은 점수를 받았습니다. 하지만 ‘약간의’ RLHF 훈련을 통해 더 높은 점수를 얻었는데, 이 개선된 모델은 일반적인 말에 ‘저항’했지만 미묘한 세부 사항은 여전히 찾아내지 못했습니다.

GPT-4가 저지르는 ‘미묘한 실수’의 예/사진=오픈AI

오픈AI는 “특히 고부담 상황에서” 언어 모델의 결과물을 사용할 때 “매우 주의”해야 한다고 강조했습니다. 연구팀은 잠재적인 이용자에게 사람이 결과물을 검토하고, 추가 컨텍스트를 활용해 결과물을 정제하거나 고부담 상황에서는 사용하지 말라고 권고했습니다.

하지만 오픈AI는 훈련 단계가 시작될 때부터 GPT-4를 이전 모델보다 안전하고, 정렬된 형태로 만들기 위해 노력하고 있다고 밝혔습니다. 구체적으로 사전 교육 데이터 선정 및 필터링, 평가 및 전문가 참여, 시간 경과에 따른 모델 안전 개선 사항 도입 등이 언급됐습니다.

오픈AI는 모델의 적대적 테스트를 위해 50명 이상의 AI 위험, 사이버 보안 및 국제 보안 전문가에게 조언을 구했다고도 밝혔습니다. 연구팀은 전문가의 조언이 모델을 개선하는 데 도움이 되었다면서 GPT-4의 거부 기능(위험한 화학 물질을 합성하는 방법 같은 유해한 질문을 거부하는 기능)을 개선하기 위한 추가 데이터를 확보할 수 있었다는 것을 예로 들었습니다.

옴디아의 브래들리 시민(Bradley Shimmin)은 오픈AI의 GPT-4가 성공한 건 사전 지식을 바탕으로 팀을 구축했기 때문이라는 견해를 가지고 있습니다. 그는 “(오픈AI는) 마이크로소프트 빙(Bing)이 겪었던 문제, 즉 악용, 원치 않는 콘텐츠 및 개인 정보 보호 같은 문제를 인간이 직접 일종의 가드레일을 세우는 식으로 피해가겠다는 생각을 가지고 있는 것 같습니다. 챗GPT에서도 그랬죠.”라고 말했습니다.

아울러 “저는 이처럼 안전과 유용성을 지속적으로 강조하는 것이 어떤 ‘불가피한 행진’, 즉 구글의 팜(PaLM)을 비롯해 시장에 출시돼 있는 다양한 모델을 사용해 얻을 수 있는 출력 토큰이나 멀티모달(multi-modal)에 대한 이해를 능가한다고 생각합니다.”라고 덧붙였습니다. 그러니까 오픈AI가 꾸준히 안전과 유용성을 강조하며 이를 자사의 모델에 반영했기 때문에 오픈AI의 모델이 다른 경쟁 모델보다 우월하다는 겁니다.

오픈AI는 GPT-4가 해로운 응답을 내놓는 경우를 줄이기 위해 RLHF 훈련 과정에 추가적인 안전 보상 신호를 삽입했고, 악성 요청을 거부하도록 훈련된 모델을 사용했습니다. 알려진 바에 따르면 해당 모델은 유효한 요청은 거부하지 않도록 훈련됐습니다.

오픈AI는 “저희의 완화 조치 덕에 GPT-4의 안전 속성은 GPT-3.5보다 훨씬 개선됐습니다.”라며 “금지된 콘텐츠에 대한 요청에 응답을 내놓는 경우는 GPT-3.5보다 82% 감소했습니다. 또한 GPT-4는 정책에 따라 의학적 조언이나 자해 같은 민감한 요청을 받았을 때 GPT-3.5보다 29% 자주 응답합니다.”라고 덧붙였습니다.

하지만 연구팀은 사용자가 언어 모델을 우회해서 가이드라인을 벗어난 응답을 생성하는 ‘탈옥’ 문제가 “여전히 존재한다”는 점을 인정했습니다. 실제로 일부 악의적인 사용자가 챗GPT의 안전 가드레일을 우회하는 방법을 계속해서 찾아내고 있기도 합니다. 오픈AI는 지금까지 나온 방법 중 남용 모니터링 등 배포 시간과 관련된 안전 기술을 사용하는 것이 이러한 한계를 관리하는 가장 좋은 방법이라고 말했습니다.


How much does GPT-4 cost?

Pricing for GPT-4 is $0.03 per 1,000 prompt tokens and $0.06 per 1,000 completion tokens. Default rate limits are 40 1,000 tokens per minute and 200 requests per minute. Note, that GPT-4 has a context length of 8,192 tokens.

OpenAI is also providing limited access to its 32,768–context version, GPT-4-32k. Pricing for the larger model is $0.06 per 1,000 prompt tokens and $0.12 per 1,000 completion tokens.

Capabilities: What can GPT-4 do?

For casual conversations, OpenAI said there were “subtle” differences between GPT-3.5 and GPT-4. The wider differences come from GPT-4’s reality and ability to be creative, compared to the previous model which was more focused on handling nuanced instructions.

GPT-4 outperformed GPT 3.5 on a host of simulated exams, including the Law School Admission Test, AP biology and the Uniform Bar Exam, among others.

GPT-4 was evaluated on several machine learning model benchmarks, including MMLU, HumanEval and DROP.

OpenAI contends that GPT-4 “considerably outperforms existing large language models.”

GPT-4 beat DeepMind’s Chinchilla and Gopher, as well as Google Flan-PaLM at multi-task language understanding. The test spans 14,000 multiple-choice problems in a variety of languages. In the 24 of 26 languages tested, GPT-4 rival models in English as well as low-resource languages such as Latvian, Welsh and Swahili.

Internally, OpenAI revealed it has been using GPT-4 to support sales and content moderation.

The model can also generate code and does so better than ChatGPT, which could open up an avenue for commercial exploitation, according to Dr. Andrew Rogoyski from the Institute for People-Centred AI at the University of Surrey.

“Imagine just having to ask your computer to create a program that, for example, predicts how your latest product will perform in its market. No programming is required. This could be transformational for many businesses,” said Dr. Rogoyski.

He noted that buried in the paper outlining GPT-4 is the comment, “we expect GPT-4 to impact even jobs that have historically required years of experience and education, such as legal services.” Such a comment could “send a chill up the spines of legal firms worldwide,” Rogoyski added.

GPT-4 Limitations

Despite being potentially OpenAI’s most advanced language model to date, GPT-4 retains the flaws present in its predecessors: it’s not fully reliable.

The model still generates false facts, something OpenAI describes as “hallucinates” and makes reasoning errors.

According to its creators, GPT-4 significantly reduces hallucinations relative to previous models, scoring 40% higher than GPT-3.5 on OpenAI’s internal adversarial factuality evaluations. GPT-4 recorded OpenAI’s best score on the TruthfulQA benchmark, which tests a model’s ability to separate fact from an adversarially-selected set of incorrect statements. The base GPT-4 model only scored slightly higher than GPT-3.5 on TruthfulQA. But after some RLHF post-training, the gap improved, with the model resisting common sayings but still missing subtle details.
OpenAI stressed that “great care” should be taken when using language model outputs, “particularly in high-stakes contexts.” The research team encouraged potential users to have humans review output, ground responses with additional context, or avoid high-stakes uses altogether.

The OpenAI team said it’s trying to make GPT-4 safer and more aligned from the beginning of training, compared to previous models, with efforts including selection and filtering of the pretraining data, evaluations and expert engagement and introducing model safety improvements over time.

OpenAI said it consulted over 50 experts on AI risks, cybersecurity and international security to adversarially test the model. Feedback from the experts fed into the model’s improvements, the research team said, such as additional data to improve GPT-4’s ability to refuse requests on how to synthesize dangerous chemicals.

Omdia’s Shimmin notes that OpenAI’s success with GPT-4 stems from the team building on prior knowledge.

He said: “(OpenAI) appears to be taking what allowed ChatGPT to escape the embarrassment of Microsoft Bing chatbot through the application of human-derived guardrails to help users avoid issues like adversarial usage, unwanted content and privacy concerns.

“This continued emphasis on safety and usability to me means more than the inevitable march of output tokens or multi-modal understanding – both of which can be had using a wide array of models that are now in the market, like Google PaLM.”

GPT-4 also has an additional safety reward signal during RLHF training to reduce harmful outputs, with the model trained to refuse toxic requests. The model was reportedly trained to prevent it from refusing valid requests.

“Our mitigations have significantly improved many of GPT-4’s safety properties compared to GPT-3.5,” OpenAI said. “We’ve decreased the model’s tendency to respond to requests for disallowed content by 82% compared to GPT-3.5, and GPT-4 responds to sensitive requests like medical advice and self-harm, in accordance with our policies 29% more often.”

The research team did however acknowledge that jailbreaks, where users circumvent language models so it generates responses outside of its guidelines, “still exist.” Users have routinely found ways to get around ChatGPT’s safety guardrails. OpenAI said that the best way to manage this limitation, for now, is with deployment-time safety techniques like monitoring for abuse.

Similar Posts