[해외DS] 구글, AI 모델로 검색 ‘스니펫’ 개선한다

구글 검색 최상단 표시되는 스니펫, MUM 적용으로 개선돼 나약 부사장, 검색 시스템에 “합의의 개념” 가르쳤다 밝혀 스니펫 내용 저작권료 문제 진행 중, 프랑스에서는 5억 유로 벌금 내기도

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=구글 검색

‘스니펫(snippet)’, 조금 생소하지만 설명을 들으면 바로 이해하실 겁니다. 사전적인 정의는 ‘(작은) 정보’ 혹은 ‘(대화 등의) 한 토막’인데요. 구글에서 말하는 스니펫, 즉 ‘추천 스니펫’은 사용자가 구글에 무언가를 검색했을 때 검색 결과 최상단에 표시되는 짧은 답변입니다. 바로 아래 그림에 해당하는 부분이죠.

사진=AI 비즈니스

그런데 최근 구글이 사용자에게 제시되는 검색 결과를 개선하기 위해 ‘추천 스니펫’ 부분에 적용될 중요한 개선 사항을 발표했다고 합니다.

우선 구글 검색의 일반적인 작동 방식을 설명하겠습니다. 구글은 사용자의 검색어에 맞는 정보를 인터넷에서 수집한 뒤 각각의 출처를 확인합니다. 이후 신뢰할 수 있고, 전문적인 지식이 포함되고, 권위나 신뢰성이 있는 출처에서 나온 정보를 선정해 사용자에게 보여줍니다. 예를 들어 다른 많은 웹사이트가 어떤 특정 웹사이트로 연결된다면 그 사이트는 전문성이나 신뢰성을 갖고 있을 가능성이 큽니다.

이번에 발표된 개선 사항 역시 별반 다르지 않습니다. 사용자의 질문에 대한 일종의 빠른 답변인 추천 스니펫에 ‘확실히’ 가장 신뢰할 수 있는 답변을 내놓겠다는 것이죠. 구글의 검색 부사장 판두 나약(Pandu Nayak)이 블로그를 통해 설명한 바에 따르면 구글은 검색 시스템에 “합의의 개념(notion of consensus)”을 가르쳤습니다.

단어를 MUM하다

구글은 최신 AI 모델인 MUM(Multitask Unified Model)을 사용해 스니펫을 미세 조정했습니다. 이 시스템은 여러 고품질의 출처에서 사실이라고 합의한 답변을 찾습니다. 이에 나약 부사장은 시스템이 각각의 출처가 동일한 것을 설명할 때 서로 다른 단어나 개념을 사용하더라도 올바르게 작동한다고 밝혔습니다.

아울러 그는 “우리는 이러한 합의 기반(consensus-based) 기술이 추천 스니펫 콜아웃(구글 검색에서 상단 혹은 하단에 기재되는 부분을 의미)의 품질과 유용성을 의미 있는 수준으로 끌어올렸음 확인했다”고 덧붙였습니다.

MUM은 반대 상황, 즉 추천 스니펫이 어떤 신호를 놓치는 상황을 구글 시스템이 이해하는 데에도 도움이 됩니다. 예를 들면, 예전에는 구글에 ‘스누피가 링컨을 암살한 시기’라고 검색했을 때 구글은 그 링컨 암살 사건에 대한 정확한 데이터와 정보를 제공했습니다. 하지만 만화에 나오는 개가 링컨을 암살하는 것이 가능하냐는 식의 질문 자체에 내재된 거짓에 대해 이의를 제기하지는 않았습니다.

그렇지만 이제는 아닌데요. 나약 부사장은 구글이 MUM을 활용해 ‘잘못된 제안’을 더 잘 감지할 수 있도록 검색 시스템을 학습시켰으며 그 결과 추천 스니펫의 트리거(trigger)를 40%까지 줄였다고 전했습니다.

버트와의 작별

버트(BERT)는 구글이 지난 2018년 공개한 AI 언어 모델로, MUM이 등장하기 전까지 구글 검색에 활용됐습니다. 사용자가 입력한 검색어의 단어가 서로 어떻게 관련돼 있는지를 살펴봄으로써 구글 검색이 맥락을 고려한 답변을 내놓을 수 있게 했죠.

MUM은 지난 2021년 5월 구글이 공개한 버트를 대체할, 검색 엔진을 위한 새롭고 더 강력한 알고리즘입니다. 텍스트와 이미지 이면에 있는 정보를 이해해 검색 결과를 증폭시켜 사용자의 쿼리에 보다 정확하게 응답합니다.

참고로 구글이 올해 초 새롭게 공개한 ‘다중 검색’ 기능도 이 MUM에 기반합니다. 이 기능은 사용자가 이미지와 텍스트를 동시에 검색할 수 있도록 합니다. 아직까지는 베타 버전인데, iOS 혹은 안드로이드의 구글 검색 앱에서 미국 영어를 설정하면 사용할 수 있습니다.

만약 스니펫이 사라진다면?

사실 구글의 스니펫은 뜨거운 감자였습니다. 지난 2019년 EU는 EU 저작권 지침 제 15조에 따라 구글 검색 엔진과 같은 애그리게이터(aggregator, 여러 회사의 상품 혹은 서비스에 대한 정보를 하나로 모아 제공하는 사이트)가 스니펫 부분에 표시되는 기사의 언론사에 저작권료를 지불하도록 강제했기 때문입니다.

구글은 당연히 이 조항에 문제를 제기했고, 프랑스가 다른 EU 회원국보다 이르게 이 법을 시행하자 프랑스어 버전에 스니펫을 표시하지 않기로 결정했습니다. 그 자리에는 그냥 제목과 웹 링크만이 남게 되었죠.

하지만 2020년 프랑스 경쟁 당국(Autorité de la concurrence)은 이 조치를 비난하며 구글에 게시자 및 뉴스 대행사와 라이선스 계약을 협상하라는 명령을 내렸습니다. 저작권자들은 검색 결과에 자신의 콘텐츠가 ‘재사용’되는 부분을 보상받고 싶어했습니다.

구글이 이를 준수하지 않자 프랑스는 2021년 7월 구글에 5억 유로(미화 5억 1천만 달러)의 벌금을 부과했습니다. 로이터 지에 따르면 구글은 결국 이 벌금을 냈으며, 추후 출판사와 보상에 대한 협상을 할 예정으로 알려졌습니다.


Google has unveiled what it calls a “significant” innovation to ‘featured snippets’ to improve results from user searches.

Featured snippets are the short answers that come up in Google Search when users ask a question. For example:

How Google searches work in general: In response to a user search, it ranks different sources from the internet and shows information from sources it sees as the most reliable and that demonstrate expertise, authority and trustworthiness. For instance, if many other websites link to a particular website, that is a signal of the site’s expertise and authority.

Now, Google is essentially doing the same thing to its snippets: making sure the quick answer to a user question is the most reliable available. How? By letting its search system “understand the notion of consensus,” wrote Google Search Vice President Pandu Nayak in a blog post.

MUM’s the word

Google used its latest AI model, Multitask Unified Model (MUM), to finetune featured snippets. The system looks for an answer that multiple high-quality sources agree is factual. Nayak said this works “even if sources use different words or concepts to describe the same thing.”

“We’ve found that this consensus-based technique has meaningfully improved the quality and helpfulness of featured snippet callouts,” he wrote.

Conversely, MUM also helps Google’s systems understand when a featured snippet misses the mark. For example, a recent search for ‘when did Snoopy assassinate Abraham Lincoln’ did provide accurate data and information about the assassination, but did not dispute the falsehood inherent in the question itself that a cartoon dog could have done it.

Nayak revealed that Google has used AI models to train its Search system to get better at detecting false propositions, a move that has reduced the triggering of featured snippets in these cases by 40%, he suggested.

Replacing BERT

Google unveiled MUM in May 2021 as a new and more powerful algorithm for its search engine to replace BERT. MUM amplifies search results by understanding the information behind text and images to more fully answer a query. BERT added context to a Google Search by looking at how words in a query related to one another.

MUM was an underlying part of the company’s new Multisearch feature, which lets users search using images and text at the same time. Unveiled earlier this year, Multisearch is available on Google Search’s iOS and Android apps as a beta feature in English in the U.S.

When snippets were removed

Google’s snippets had been an area of controversy: In 2019, Article 15 of the EU’s Copyright Directive forced aggregators such as Google’s search engine to pay press publishers for showing news snippets.

Google took issue with the provision, deciding not to show snippets on its French version – just headlines and web links − after the country raced ahead of other EU members to implement the law.

In 2020, the French competition authority (Autorité de la concurrence) decried the practice and ordered Google to negotiate licensing deals with publishers and news agencies. Publishers wanted reimbursement for the re-use of their content in search results.

France fined Google 500 million euros ($510 million) in July 2021 for failing to comply. The company has since paid the fine and will be negotiating with publishers on compensation, according to Reuters.

Similar Posts