[해외DS] ‘AI 바보 과학자’들이 쓴 연구 초록

bioRxiv에 AI 챗봇이 가짜 연구 논문 초록 쓸 수 있다는 프리프린트 올라와 노스웨스턴대 연구팀, “ChatGPT는 믿을 수 있는 과학적 초록을 작성한다” 결론내기도 Else, 과학적 커뮤니케이션 평가자들이 AI 생성 텍스트 사용 근절 위한 정책 만들 의무 있다고 주장

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다.저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

과학자들은 AI ChatGPT가 생성한 연구 초록과 인간이 작성한 연구 초록을 구분하지 못하기도 한다.

사진=Olemedia/Getty Images

지난 12월 말 인공 지능(AI) 챗봇이 종종 과학자들까지 속여넘길 정도로 설득력 있는 가짜 연구 논문 초록을 작성할 수 있다는 내용의 프리프린트가 bioRxiv 서버에 올라왔습니다. 연구자들은 이 결과가 과학에 미치는 영향을 두고 갑론을박 중이라네요.

영국 옥스퍼드 대학교에서 기술 및 규제를 공부하고 이 연구에 참여하지 않은 Sandra Wacher는 Scientific American과의 인터뷰에서 “매우 걱정된다”며 “우리가 지금 전문가에게 무엇이 진실인지 아닌지 판단할 수 있는 능력이 없는 상황에 처해 있다면 복잡한 주제들 사이에서 길잡이 역할을 하는, 우리에게 절실히 필요한 ‘중개인’을 잃는 것이다”라고 말했습니다.

ChatGPT는 사용자 프롬프트에 응답해 사실적이고 지능적으로 들리는 텍스트를 생성하는 ‘챗봇(chatbot)’이자 인간이 생성한 방대한 양의 기존 텍스트를 소화해 작업을 수행하는 방법을 학습하는 신경망 기반 시스템인 ‘대형 언어 모델’입니다. 캘리포니아주 샌프란시스코에 본사를 둔 소프트웨어 회사 OpenAI가 지난 11월 30일 이 툴(tool)을 무료로 출시했지요.

ChatGPT의 출력물은 대부분 사람이 직접 쓴 텍스트와 구별하기 어렵기 때문에 출시 이후 연구자들은 이 툴을 이용할 때 생기는 윤리적 문제로 골머리를 앓게 됐습니다. ChatGPT로 쓴 프리프린트와 사설을 발표한 과학자들도 있었다네요.

한편, 일리노이 주 시카고 노스웨스턴 대학의 Catherine Gao가 이끄는 그룹은 ChatGPT로 ‘인공’ 연구 논문 초록을 생성하고 과학자들이 이를 발견할 수 있는지 테스트했습니다. 연구자들은 JAMA, The New England Journal of Medicine, The BMJ, The Lancet 및 Nature Medicine에 발표된 문서 중 적당한 것을 뽑아낸 뒤, 챗봇에게 선별한 문서에 기반해 의학 연구 초록 50개를 만들라는 명령을 내렸습니다. 이후 표절 탐지기와 AI 출력 탐지기를 이용해 챗봇이 생성한 초록을 원본 초록과 비교했고, 의료 연구원 그룹에게 무엇이 조작된 초록이라 생각하는지 물었습니다.

레이더 가동, 그 결과는?

ChatGPT가 생성한 초록은 표절이 발견되지 않았음을 의미하는 독창성 점수 중앙값 100%를 기록하며 표절 검사기를 통과했고, AI 출력 감지기는 생성된 초록의 66%를 발견했습니다. ‘인간 리뷰어’의 성적도 거기서 거기였는데, 이들은 생성된 초록의 68%와 진짜 초록의 86%만 정확하게 골라냈습니다. 다시 말하면, 인간 리뷰어는 생성된 초록의 32%를 진짜로, 14%의 진짜 초록을 생성된 것으로 잘못 판단했습니다.

Gao와 동료들은 프리프린트에서 “ChatGPT는 믿을 수 있는 과학적 초록을 작성한다”는 결론을 내리며 “과학적 글쓰기를 돕기 위한 대규모 언어 모델의 윤리적이고 수용 가능한 사용의 경계는 아직 결정되지 않았다”고 덧붙였습니다.

Wachter는 Scientific American과의 인터뷰에서 과학자들이 연구가 사실인지 판단할 수 없다면 “끔찍한 결과”가 발생할 수 있다고 말했습니다. 조작된 연구를 읽으면서 잘못된 조사 방향으로 끌려갈 수 있는 연구원들에게도 문제가 되지만, “과학 연구가 우리 사회에서 큰 역할을 하기 때문에 사회 전체에 미치는 영향”도 있다면서요. Wacher는 조작된 연구 정보에 기반해 잘못된 정책 결정을 내리는 상황을 예시로 들었습니다.

그러나 뉴저지 프린스턴 대학교의 컴퓨터 과학자 Arvind Narayanan은 Scientific American에게 “진지한 과학자가 ChatGPT를 사용하여 초록을 생성할 가능성은 거의 없”고, 생성된 초록을 감지할 수 있는지 여부는 “관련이 없다”는 견해를 밝혔습니다. 아울러 “문제는 도구가 정확하고 설득력 있는 초록을 생성할 수 있는지 여부이다. 그럴 수 없기 때문에, ChatGPT 사용의 장점은 미미하고 단점은 상당하다”고 덧붙였습니다.

뉴욕과 파리에 본사를 두고 있는 AI 회사 Hugging Face에서 AI의 사회적 영향을 연구하는 Irene Solaiman은 과학적 사고를 위해 대규모 언어 모델에 의존하는 상황을 걱정하고 있습니다. Solaiman은 “이러한 모델은 과거 정보를 가지고 훈련되는데, 사회적 및 과학적 진보는 종종 과거와 다르게 사고하거나 사고에 개방적일 수 있다”고 말했습니다.

기사를 쓴 Scientific American 기자 Holly Else는 연구 논문 및 회의록과 같은 과학적 커뮤니케이션을 평가하는 사람들이 AI 생성 텍스트의 사용을 근절하기 위한 정책을 마련해야 한다고 주장했습니다. 어떤 기관이 특정한 경우에 기술 사용을 허용하기로 결정했다면, 공개에 관한 명확한 규칙을 설정해야 한다는 것입니다. 지난달 초에는 하와이 호놀룰루에서 7월에 개최되는 대규모 AI 컨퍼런스인 ‘제40차 머신 러닝 국제 컨퍼런스(International Conference on Machine Learning)’가 ChatGPT 및 기타 AI 언어 도구로 작성된 논문을 금지한다고 발표하기도 했습니다.

Solaiman은 의학과 같이 가짜 정보가 사람들의 안전까지도 위협할 수 있는 분야의 저널은 정보가 정확한지 확인하기 위해 보다 엄격한 접근 방식을 취해야 할 수도 있다고 덧붙였습니다.

또한 Narayanan은 이 문제에 대한 해결책을 모색할 때 챗봇 자체가 아니라 “대학이 품질이나 영향에 관계없이 서류를 ‘세어’ 채용 및 승진 검토를 수행하는 등 이러한(비윤리적인 논문 작성) 행동을 초래하는 비뚤어진 인센티브”에 초점을 맞춰야 한다고 말했습니다.


An artificial-intelligence (AI) chatbot can write such convincing fake research-paper abstracts that scientists are often unable to spot them, according to a preprint posted on the bioRxiv server in late December. Researchers are divided over the implications for science.

“I am very worried,” says Sandra Wachter, who studies technology and regulation at the University of Oxford, UK, and was not involved in the research. “If we’re now in a situation where the experts are not able to determine what’s true or not, we lose the middleman that we desperately need to guide us through complicated topics,” she adds.

The chatbot, ChatGPT, creates realistic and intelligent-sounding text in response to user prompts. It is a ‘large language model’, a system based on neural networks that learn to perform a task by digesting huge amounts of existing human-generated text. Software company OpenAI, based in San Francisco, California, released the tool on 30 November, and it is free to use.

Since its release, researchers have been grappling with the ethical issues surrounding its use, because much of its output can be difficult to distinguish from human-written text. Scientists have published a preprint and an editorial written by ChatGPT. Now, a group led by Catherine Gao at Northwestern University in Chicago, Illinois, has used ChatGPT to generate artificial research-paper abstracts to test whether scientists can spot them.

The researchers asked the chatbot to write 50 medical-research abstracts based on a selection published in JAMAThe New England Journal of MedicineThe BMJThe Lancet and Nature Medicine. They then compared these with the original abstracts by running them through a plagiarism detector and an AI-output detector, and they asked a group of medical researchers to spot the fabricated abstracts.

UNDER THE RADAR

The ChatGPT-generated abstracts sailed through the plagiarism checker: the median originality score was 100%, which indicates that no plagiarism was detected. The AI-output detector spotted 66% the generated abstracts. But the human reviewers didn’t do much better: they correctly identified only 68% of the generated abstracts and 86% of the genuine abstracts. They incorrectly identified 32% of the generated abstracts as being real and 14% of the genuine abstracts as being generated.

“ChatGPT writes believable scientific abstracts,” say Gao and colleagues in the preprint. “The boundaries of ethical and acceptable use of large language models to help scientific writing remain to be determined.”

Wachter says that, if scientists can’t determine whether research is true, there could be “dire consequences”. As well as being problematic for researchers, who could be pulled down flawed routes of investigation, because the research they are reading has been fabricated, there are “implications for society at large because scientific research plays such a huge role in our society”. For example, it could mean that research-informed policy decisions are incorrect, she adds.

But Arvind Narayanan, a computer scientist at Princeton University in New Jersey, says: “It is unlikely that any serious scientist will use ChatGPT to generate abstracts.” He adds that whether generated abstracts can be detected is “irrelevant”. “The question is whether the tool can generate an abstract that is accurate and compelling. It can’t, and so the upside of using ChatGPT is minuscule, and the downside is significant,” he says.

Irene Solaiman, who researches the social impact of AI at Hugging Face, an AI company with headquarters in New York and Paris, has fears about any reliance on large language models for scientific thinking. “These models are trained on past information and social and scientific progress can often come from thinking, or being open to thinking, differently from the past,” she adds.

The authors suggest that those evaluating scientific communications, such as research papers and conference proceedings, should put policies in place to stamp out the use of AI-generated texts. If institutions choose to allow use of the technology in certain cases, they should establish clear rules around disclosure. Earlier this month, the Fortieth International Conference on Machine Learning, a large AI conference that will be held in Honolulu, Hawaii, in July, announced that it has banned papers written by ChatGPT and other AI language tools.

Solaiman adds that in fields where fake information can endanger people’s safety, such as medicine, journals may have to take a more rigorous approach to verifying information as accurate.

Narayanan says that the solutions to these issues should not focus on the chatbot itself, “but rather the perverse incentives that lead to this behaviour, such as universities conducting hiring and promotion reviews by counting papers with no regard to their quality or impact”.

Similar Posts