[해외 DS] 언어생성AI, 과학에 어떻게 영향을 미치는가

대규모 언어 모델 (LLM), 챗봇, 검색엔진, 문서 요약에 적극 활용되고 있다 그러나, 일각에서는 LLM이 과학에 대한 대중의 불신 심화 시킨다는 우려 표명해 인공지능 알고리즘에 대한 적절한 규제 및 활용이 중요할 것으로 보여

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

Shobita Parthasarathy는 LLM이 연구 발전에 도움이 될 수 있지만 사용을 규제해야 한다고 말합니다/사진=Gerald R. Ford School of Public Policy/University of Michigan

미시간 대학의 기술 거버넌스 전문가인 Shobita Parthasarathy는 “방대한 양의 텍스트에서 유창하게 언어를 생성하는 인공지능 알고리즘이 과학을 반드시 더 나은 방향으로 발전시키는 것은 아닐 수 있다”고 밝혔습니다.

4월 27일에 발표된 보고서서, Parthasarathy와 다른 연구자들은 새로운 인공지능 기술인 대규모 언어 모델(LLM)의 사회적 영향을 예상하고 있습니다. LLM은 설득력 있는 산문을 만들고, 언어를 번역하고, 질문에 답하고, 코드를 생성하기도 합니다.Google, Facebook 및 Microsoft등의 유수 기업들은 LLM을 활용하여 챗봇 및 검색 엔진을 구축하고, 문서를 요약하는 데에 이를 활용하고 있습니다.

그러나, 일부 전문가들은 LLM이 대중화되어 서비스로 배포되기에는 아직 갈 길이 멀다고 지적하고 있습니다. 예컨대, LLM은 수백만 또는 수십억 개의 문서들로부터 비롯된 오류나 성・인종 차별과 같은 편향을 그대로 학습합니다. 또한 전문가들은 인간의 글과 구별할 수 없는 컴퓨터-생성 언어(computer-generated language)가 사람들로 하여금 불신과 혼란을 야기할 수 있다며 우려의 목소리를 높이고 있습니다.

이와 관련하여 Parhasarathy는 LLM이 복잡한 연구에 대한 과학적 대중화에 도움을 줄 수는 있지만, 다른 한편으로는 이 알고리즘이 과학에 대한 대중의 불신을 심화시킬 수도 있다고 말합니다. Parthasarathy는 Nature와의 인터뷰를 통해 LLM에 대해 아래와 같이 밝혔습니다.

LLM은 어떻게 과학의 발전을 돕거나 저해할 수 있나요?

저 또한 처음에는 LLM이 과학을 대중화하고 발전시키는 데 긍정적인 영향을 끼칠 수 있다고 생각했습니다. 예컨대 대중들이 번거롭게 의사에게 찾아갈 필요 없이 질병 증상을 편리하게 찾아보거나, 이해하기 어려운 기술적 주제를 요약해 정보로부터 인사이트를 얻어내는 식으로 말입니다.

그러나 LLM을 활용한 정보 요약은 사용자가 인식하지 못하게 오류를 만들거나, 잘못된 정보를 포함할 가능성이 있습니다. 대중들은 LLM을 사용하여 복잡한 논문 및 연구를 이해할 수 있지만, 요약된 정보는 편향적이고, 개별적이고, 단편적인 사실을 담고 있을 가능성이 높습니다. 또한, 이로 인해 과학에 대한 대중의 신뢰 문제를 악화시킬 우려도 존재합니다.

말씀하신 것처럼, LLM 오래되었거나 신뢰할 없는 정보를 추출할 가능성이 있는데, LLM 사람들이 계속 사용하는 이유는 무엇인가요?

맞습니다만, 그럼에도 불구하고 LLM이 겉보기에는 객관적으로 ‘보이고’, 이해하기 쉬운 정보를 출력한다는 점에서 여전히 많은 사람들에게 매력적으로 다가오고 있는 것은 사실입니다. 이 때문에 일반 대중들은 LLM이 단편적이고, 편향적인 정보를 출력할 수 있다는 사실을 인식하지 못하고 있는 것으로 보입니다.

한편, 과학자들도 대중들과 마찬가지로 LLM이 유용하지만 불완전한 도구라는 것을 깨닫는 것을 어려워하고있습니다. 예컨대 LLM은 특정 주제에 대해 역사적인 맥락을 꽤나 잘 설명해준다는 점에서 디지털 인문학에서 유용할 수 있습니다만, LLM은 정보를 출력할 때 그 정보가 어디에서부터 비롯되었는지를 알려주지 않습니다. 즉, 연구자 또한 LLM을 사용할 때 출력값이 정확한지에 대한 결정을 하기 위해 신중하게 생각해야한다는 겁니다. 실제로 저 또한 몇몇 사회학자들이 LLM의 불완전한 정보에 오도되었던 경우도 꽤나 많이 지켜봤습니다.

그렇다면 누가 LLM 제대로 된 과학적 목적으로 사용할 있을까요?

제 생각에는 논문의 전문에 대한 독점 소유권이 있고, 이를 바탕으로 LLM을 과학적으로 활용하여 객관적이고 합리적인 정보를 뽑아낼 수 있는 대규모 과학 출판사입니다.

한편 LLM 모델을 통해 본인 논문의 피어리뷰를 해줄 수 있는 사람을 찾기 위해 과학논문을 쿼리해줘서 피어리뷰를 자동화하길 원하는 사람에게 제대로 사용될 수 있을 것입니다. 또한, LLM은 원고나 특허에서 혁신적인 결과를 선택하고, 평가하는데에도 객관적으로 사용될 수 있을 것입니다. 그리고, 대규모 출판사는 비영어권 국가의 연구자들이 문장을 개선하는 데 도움이 되도록 LLM 알고리즘을 개발할 수 있을 것입니다.

물론 출판사는 라이선스 계약을 체결해서 대기업에게 자사의 논문 자산을 판매할 수도 있겠습니다만, 대부분의 경우 출판사는 논문 라이선스를 유지할 것으로 봅니다. 만약 라이선스 계약을 체결한다면 지식 독점에 불만을 가지는 과학자들이 이의를 제기할 것입니다. 한편, 오픈 액세스 논문과 ‘잘 팔리는’ 논문을 기반으로 한 LLM은 과학 텍스트를 만들어내는데 일시적인 도움을 줄 수는 있으나, 장기적 관점에서 LLM에만 의존해서 이를 유지하는 것은 어려울 것입니다.

LLM 사용하여 실제처럼 보이는 가짜 논문을 만드는게 가능할까요?

가능하다고 봅니다. 악용하는 사람들은 LLM을 사용하여 위조에 가까운 논문을 생성할 것입니다. 그러나, 이는 과학계에서 소수이고, 대부분 과학자들은 LLM사용에 대한 적절한 규정과 규범에 동의하고 있습니다.

그렇다면 LLM 사용을 어떻게 규제해야 합니까?

거의 대부분의 AI 기술은 체계적인 규제와 표준을 가지고 있습니다. 이는 LLM의 경우에도 똑같이 적용되며, 방법은 정책 개발자마다 다르겠지만 저희는 정부 기관이 일반 규제에 개입할 것을 권장하고 있습니다.

특히 과학계에서 LLM의 합리적인 사용을 위해서는 투명성이 중요합니다. 즉, LLM개발자들은 어떤 텍스트 데이터가 사용되었고, 알고리즘이 어떻게 돌아가는지에 대한 논리를 설명해야 하며 컴퓨터 소프트웨어가 출력을 생성하는 데 사용되었는지 여부에 대해 명확해야 합니다. 우리는 또한 미국 국립 과학 재단이 다양한 분야에 걸쳐 공개적으로 이용 가능한 공신력있는 모든 과학 텍스트로 훈련된 LLM의 개발을 지원해야 한다고 생각합니다.

그리고 과학자들은 피어 리뷰어를 찾기 위해 LLM에 의존하거나, 이 프로세스를 원고 평가와 같은 측면으로 확장하는 것을 경계해야 할 것입니다. LLM은 과거 데이터를 지향하기 때문에 새로운 과학적 사실에 대해서는 보수적일 가능성이 매우 크기 때문입니다.


Machine-learning algorithms that generate fluent language from vast amounts of text could change how science is done — but not necessarily for the better, says Shobita Parthasarathy, a specialist in the governance of emerging technologies at the University of Michigan in Ann Arbor.

In a report published on 27 April, Parthasarathy and other researchers try to anticipate societal impacts of emerging artificial-intelligence (AI) technologies called large language models (LLMs). These can churn out astonishingly convincing prose, translate between languages, answer questions and even produce code. The corporations building them — including Google, Facebook and Microsoft — aim to use them in chatbots and search engines, and to summarize documents. (At least one firm, Ought, in San Francisco, California, is trialling LLMs in research; it is building a tool called ‘Elicit’ to answer questions using the scientific literature.)

LLMs are already controversial. They sometimes parrot errors or problematic stereotypes in the millions or billions of documents they’re trained on. And researchers worry that streams of apparently authoritative computer-generated language that’s indistinguishable from human writing could cause distrust and confusion.

Parthasarathy says that although LLMs could strengthen efforts to understand complex research, they could also deepen public scepticism of science. She spoke to Nature about the report.

How might LLMs help or hinder science?

I had originally thought that LLMs could have democratizing and empowering impacts. When it comes to science, they could empower people to quickly pull insights out of information: by querying disease symptoms for example, or generating summaries of technical topics.

But the algorithmic summaries could make errors, include outdated information or remove nuance and uncertainty, without users appreciating this. If anyone can use LLMs to make complex research comprehensible, but they risk getting a simplified, idealized view of science that’s at odds with the messy reality, that could threaten professionalism and authority. It might also exacerbate problems of public trust in science. And people’s interactions with these tools will be very individualized, with each user getting their own generated information.

Isn’t the issue that LLMs might draw on outdated or unreliable research a huge problem?

Yes. But that doesn’t mean people won’t use LLMs. They’re enticing, and they will have a veneer of objectivity associated with their fluent output and their portrayal as exciting new technologies. The fact that they have limits — that they might be built on partial or historical data sets — might not be recognized by the average user.

It’s easy for scientists to assert that they are smart and realize that LLMs are useful but incomplete tools — for starting a literature review, say. Still, these kinds of tool could narrow their field of vision, and it might be hard to recognize when an LLM gets something wrong.

LLMs could be useful in digital humanities, for instance: to summarize what a historical text says about a particular topic. But these models’ processes are opaque, and they don’t provide sources alongside their outputs, so researchers will need to think carefully about how they’re going to use them. I’ve seen some proposed usages in sociology and been surprised by how credulous some scholars have been.

Who might create these models for science?

My guess is that large scientific publishers are going to be in the best position to develop science-specific LLMs (adapted from general models), able to crawl over the proprietary full text of their papers. They could also look to automate aspects of peer review, such as querying scientific texts to find out who should be consulted as a reviewer. LLMs might also be used to try to pick out particularly innovative results in manuscripts or patents, and perhaps even to help evaluate these results.

Publishers could also develop LLM software to help researchers in non-English-speaking countries to improve their prose.

Publishers might strike licensing deals, of course, making their text available to large firms for inclusion in their corpora. But I think it is more likely that they will try to retain control. If so, I suspect that scientists, increasingly frustrated about their knowledge monopolies, will contest this. There is some potential for LLMs based on open-access papers and abstracts of paywalled papers. But it might be hard to get a large enough volume of up-to-date scientific text in this way.

Could LLMs be used to make realistic but fake papers?

Yes, some people will use LLMs to generate fake or near-fake papers, if it is easy and they think that it will help their career. Still, that doesn’t mean that most scientists, who do want to be part of scientific communities, won’t be able to agree on regulations and norms for using LLMs.

How should the use of LLMs be regulated?

It’s fascinating to me that hardly any AI tools have been put through systematic regulations or standard-maintaining mechanisms. That’s true for LLMs too: their methods are opaque and vary by developer. In our report, we make recommendations for government bodies to step in with general regulation.

Specifically for LLMs’ possible use in science, transparency is crucial. Those developing LLMs should explain what texts have been used and the logic of the algorithms involved — and should be clear about whether computer software has been used to generate an output. We think that the US National Science Foundation should also support the development of an LLM trained on all publicly available scientific articles, across a wide diversity of fields.

And scientists should be wary of journals or funders relying on LLMs for finding peer reviewers or (conceivably) extending this process to other aspects of review such as evaluating manuscripts or grants. Because LLMs veer towards past data, they are likely to be too conservative in their recommendations.

This article is reproduced with permission and was first published on April 28 2022.

Similar Posts