[해외DS] ChatGPT 그리고 생성 AI, 과학에 있어 어떤 의미일까? (1)

2020년 출시된 GPT-3으로 연구 논문 개선 작업한 프리프린트 발표돼 설득력 넘치고 유창한’ 텍스트 만들어내는 LLM, 많은 연구원 애용 중 응답 신뢰할 수 없고 종종 틀리는 점은 문제, 항상 주의하면서 이용해야

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Paweł Jońca

지난 12월 컴퓨터 생물학자 Casey Greene(오로라 콜로라도대 의과대학 소속)과 Milton Pividori(필라델피아 펜실베이니아대 소속)는 특이한 실험을 진행했습니다. 과학자가 아닌 어시스턴트에게 연구 논문 개선 작업을 도와 달라고 한 건데, 이 ‘성실한’ 어시스턴트는 원고 한 건을 약 5분 만에 검토하고 몇 초 만에 문서 섹션 수정안을 제시했다고 합니다. 심지어 원고 3건 중 생물학 원고에서는 방정식에 대한 내용이 잘못됐다는 사실도 지적했습니다.

실험 과정 중에는 우여곡절도 있었지만, 이들의 어시스턴트는 좀더 읽기 쉬운 최종 원고를 만들어냈고 한 문서에 0.50달러도 안 되는, 굉장히 합리적인 수수료를 받아갔다고 합니다.

무언가 이상하다는 생각을 하셨다면, 맞습니다. 사실 이 어시스턴트는 사람이 아닙니다. 1월 23일, Greene과 Pividori는 프리프린트를 통해 2020년에 출시된 인공 지능(AI) 알고리즘 GPT-3을 연구한 결과를 발표했습니다. GPT-3은 굉장히 유명한 챗봇 형식 툴인데, 줄글이나 시, 컴퓨터 코드를 생성하라는 요청이나 (이번 연구처럼) 과학자의 연구 논문을 편집하는 작업을 해 달라는 요청을 받았을 때 ‘설득력 넘치고 유창한’ 텍스트를 만들어낼 수 있습니다. (기사 하단의 ‘How an AI chatbot edits a manuscript’을 참고하십시오.)

LLM(Large Language Models)이라고도 불리는 이런 툴 중 가장 유명한 것은 단연 ChatGPT입니다. 작년 11월 출시된 GPT-3의 응용 버전인데, 누구나 무료로 쉽게 이용할 수 있다는 점 덕분에 유명해졌죠. 뿐만 아니라 이미지나 사운드를 만들어내는 생성 AI도 있습니다.

Pividori는 “정말 감명받았다”면서 LLM이 “연구자로서 생산성을 높이는 데 도움이 될 것”이라는 견해를 밝혔습니다.

다른 과학자들도 LLM을 정기적으로 이용하면 원고를 편집할 뿐 아니라 코드를 작성하거나 확인하고, 아이디어를 브레인스토밍하는 데 도움이 된다고 이야기합니다. 레이캬비크 아이슬란드대 소속 컴퓨터 과학자 Hafsteinn Einarsson은 “나는 요즘 LLM을 매일 사용한다.”고 말했습니다. 처음에는 GPT-3을 썼는데, 이제는 ChatGPT를 이용한다고 합니다. ChatGPT는 Einarsson이 프레젠테이션 슬라이드, 학생 시험 혹은 코스워크 문제를 만들거나 학생이 쓴 논문(student thesis)을 실제 논문(paper)으로 변환할 때 도움이 된다고 하네요. Einarsson은 “많은 사람들이 (LLM을) 디지털 비서나 어시스턴트로 활용하고 있다.”라고 덧붙였습니다.

검색 엔진, 코드 작성 어시스턴트, 심지어는 제품 가격을 높이기 위해 타사 챗봇과 협상을 하는 챗봇에까지 LLM이 들어갑니다. ChatGPT를 개발한, 캘리포니아주 샌프란시스코에 있는 회사 OpenAI는 한 달에 20달러짜리 구독 서비스를 발표했습니다. 더 빠른 응답 시간, 신기능 우선 이용 등의 혜택이 주어진다고 합니다(평가판 버전은 여전히 무료입니다.). 기존에 OpenAI에 투자한 바 있는 테크 업계의 대기업 마이크로소프트는 지난 1월 무려 100억 달러가량의 추가 투자를 발표하기도 했습니다.

LLM은 추후 일반적인 단어 및 데이터 처리 소프트웨어로 통합될 예정입니다. 특히 지금 나와 있는 툴은 ‘초기 기술’인 만큼 생성 AI가 미래 사회의 한 축을 담당할 것은 확실해 보입니다.

그러나 LLM에 밝은 부분만 있는 것은 아닙니다. LLM이 허위 사실을 제시하는 경향을 보인다는 점부터 AI가 만들어낸 텍스트를 자신이 쓴 것처럼 속이는 사람들이 있다는 점까지 걱정되는 부분은 굉장히 많습니다. 연구원들은 Nature가 ChatGPT와 같은 챗봇의 잠재적인 용도, 특히 과학 분야에서의 용도에 대한 견해를 묻자 흥분을 누그러뜨리고 걱정을 내비쳤습니다. Greene은 “이 기술이 변혁적인 잠재력을 가지고 있다고 믿는다면 긴장 또한 늦추지 말아야 한다고 생각한다.”고 말했습니다. 연구원들은 미래의 규제나 지침이 AI 챗봇의 용도를 어떻게 제한할지에 따라 많은 것이 달라질 것이라고 전했습니다.

유창하지만 사실적이지는 않다

일부 연구원들은 ‘인간이 감독하는 한’ LLM이 논문 작성 혹은 보조금 지급 같은 작업의 속도를 높이는 데 도움이 된다는 견해를 가지고 있습니다. 스웨덴 예테보리 Sahlgrenska대 소속 신경생물학자 Almira Osmanovic Thunström(GPT-3을 실험에 쓴 결과를 담은 프리프린트를 공동으로 집필한 적 있는 인물입니다.)은 “과학자들은 더 이상 보조금을 신청하기 위해 앉아서 긴 서론을 쓰지 않을 것이다.”라며 “그냥 시스템에 그렇게 해 달라고 요청할 것이다.”라고 말하기도 했습니다.

런던에 기반한 소프트웨어 컨설팅 회사 InstaDeep 소속 연구 엔지니어 Tom Tumiel은 매일 LLM을 어시스턴트처럼 쓰면서 코드 작성에 도움을 받고 있다고 합니다. Tumiel은 LLM이 “거의 좀더 나은 버전의 Stack Overflow(코딩을 하는 사람들끼리 서로의 질문에 답변해 주는 유명 커뮤니티 사이트) 같다.”라고 전했습니다.

하지만 연구원들은 LLM이 내놓는 응답은 근본적으로 신뢰할 수 없고, 종종 틀리기도 한다고 강조합니다. Osmanovic Thunström은 “이런 시스템으로 지식을 만들어낼 땐 주의를 기울여야 한다.”라고 말했습니다.

이런 불안정성은 LLM이 만들어지는 방식에 기인합니다. ChatGPT나 경쟁업체의 다른 챗봇은 온라인에 있는, 방대한 양의 텍스트 데이터베이스에서 언어의 통계적인 패턴을 학습하는 방식으로 만들어집니다. 이 ‘데이터베이스’에는 거짓, 편견 혹은 구시대적인 지식이 포함돼 있죠. 이렇게 만들어진 LLM은 주어진 프롬프트(원고 일부를 재작성하라는 Greene과 Pividori의 ‘신중하게 구조화된’ 요청 같은 것)를 보고 ‘문체적으로는 그럴듯해 보이는’ 대화를 이어가기 위해 한 단어 한 단어를 꾸역꾸역 ‘뱉어냅니다’.

그 결과, LLM은 오류나 오해의 소지가 있는 정보를 쉽게 만들어냅니다. 특히 훈련 데이터가 굉장히 부족했을 수 있는 기술 분야에 있어서는 더 그렇습니다. 또 LLM은 정보의 출처를 표시할 수 없는데, 학술 논문을 작성하라는 요청을 받으면 가상의 인용문을 짜깁기해서 내놓습니다. 지난 1월 Nature Machine Intelligence 저널에 올라온 사설에는 “이 툴은 진실을 올바르게 가져오거나 신뢰할 수 있는 레퍼런스를 만들어내는 측면에서는 신뢰할 수 없다.”는 내용이 담겼습니다.

이와 같은 주의사항을 숙지한다면, ChatGPT 같은 LLM은 ‘충분한 전문지식을 보유한’ 연구원의 훌륭한 어시스턴트가 될 수 있습니다. 문제를 직접 찾아내거나 컴퓨터 코드에 대한 설명 혹은 제안이 올바른지를 쉽게 확인할 수 있겠죠.

그렇지만 이 툴은 ‘순진한’ 사용자를 잘못된 길로 인도할지도 모릅니다. 지난 12월 Stack Overflow가 ChatGPT 이용을 일시적으로 금지한 것을 예로 들 수 있습니다. 당시 사이트 관리자는 ‘열정적인’ 이용자가 보낸, 부정확하지만 말이 되는 것처럼 보이는 ‘LLM 생성’ 답변이 넘쳐난다는 사실을 확인했습니다. 검색 엔진 입장에서 이런 일은 재앙이나 다름없습니다.

[해외DS] ChatGPT 그리고 생성 AI, 과학에 있어 어떤 의미일까? (2)로 이어집니다.


In December, computational biologists Casey Greene and Milton Pividori embarked on an unusual experiment: they asked an assistant who was not a scientist to help them improve three of their research papers. Their assiduous aide suggested revisions to sections of documents in seconds; each manuscript took about five minutes to review. In one biology manuscript, their helper even spotted a mistake in a reference to an equation. The trial didn’t always run smoothly, but the final manuscripts were easier to read — and the fees were modest, at less than US$0.50 per document.

This assistant, as Greene and Pividori reported in a preprint on 23 January, is not a person but an artificial-intelligence (AI) algorithm called GPT-3, first released in 2020. It is one of the much-hyped generative AI chatbot-style tools that can churn out convincingly fluent text, whether asked to produce prose, poetry, computer code or — as in the scientists’ case — to edit research papers (see ‘How an AI chatbot edits a manuscript’ at the end of this article).

The most famous of these tools, also known as large language models, or LLMs, is ChatGPT, a version of GPT-3 that shot to fame after its release in November last year because it was made free and easily accessible. Other generative AIs can produce images, or sounds.

“I’m really impressed,” says Pividori, who works at the University of Pennsylvania in Philadelphia. “This will help us be more productive as researchers.” Other scientists say they now regularly use LLMs not only to edit manuscripts, but also to help them write or check code and to brainstorm ideas. “I use LLMs every day now,” says Hafsteinn Einarsson, a computer scientist at the University of Iceland in Reykjavik. He started with GPT-3, but has since switched to ChatGPT, which helps him to write presentation slides, student exams and coursework problems, and to convert student theses into papers. “Many people are using it as a digital secretary or assistant,” he says.

LLMs form part of search engines, code-writing assistants and even a chatbot that negotiates with other companies’ chatbots to get better prices on products. ChatGPT’s creator, OpenAI in San Francisco, California, has announced a subscription service for $20 per month, promising faster response times and priority access to new features (although its trial version remains free). And tech giant Microsoft, which had already invested in OpenAI, announced a further investment in January, reported to be around $10 billion. LLMs are destined to be incorporated into general word- and data-processing software. Generative AI’s future ubiquity in society seems assured, especially because today’s tools represent the technology in its infancy.

But LLMs have also triggered widespread concern — from their propensity to return falsehoods, to worries about people passing off AI-generated text as their own. When Nature asked researchers about the potential uses of chatbots such as ChatGPT, particularly in science, their excitement was tempered with apprehension. “If you believe that this technology has the potential to be transformative, then I think you have to be nervous about it,” says Greene, at the University of Colorado School of Medicine in Aurora. Much will depend on how future regulations and guidelines might constrain AI chatbots’ use, researchers say.

Fluent but not factual

Some researchers think LLMs are well-suited to speeding up tasks such as writing papers or grants, as long as there’s human oversight. “Scientists are not going to sit and write long introductions for grant applications any more,” says Almira Osmanovic Thunström, a neurobiologist at Sahlgrenska University Hospital in Gothenburg, Sweden, who has co-authored a manuscript using GPT-3 as an experiment. “They’re just going to ask systems to do that.”

Tom Tumiel, a research engineer at InstaDeep, a London-based software consultancy firm, says he uses LLMs every day as assistants to help write code. “It’s almost like a better Stack Overflow,” he says, referring to the popular community website where coders answer each others’ queries.

But researchers emphasize that LLMs are fundamentally unreliable at answering questions, sometimes generating false responses. “We need to be wary when we use these systems to produce knowledge,” says Osmanovic Thunström.

This unreliability is baked into how LLMs are built. ChatGPT and its competitors work by learning the statistical patterns of language in enormous databases of online text — including any untruths, biases or outmoded knowledge. When LLMs are then given prompts (such as Greene and Pividori’s carefully structured requests to rewrite parts of manuscripts), they simply spit out, word by word, any way to continue the conversation that seems stylistically plausible.

The result is that LLMs easily produce errors and misleading information, particularly for technical topics that they might have had little data to train on. LLMs also can’t show the origins of their information; if asked to write an academic paper, they make up fictitious citations. “The tool cannot be trusted to get facts right or produce reliable references,” noted a January editorial on ChatGPT in the journal Nature Machine Intelligence.

With these caveats, ChatGPT and other LLMs can be effective assistants for researchers who have enough expertise to directly spot problems or to easily verify answers, such as whether an explanation or suggestion of computer code is correct.

But the tools might mislead naive users. In December, for instance, Stack Overflow temporarily banned the use of ChatGPT, because site moderators found themselves flooded with a high rate of incorrect but seemingly persuasive LLM-generated answers sent in by enthusiastic users. This could be a nightmare for search engines.

Similar Posts