[해외DS] 구글 AI 언어 모델, 300개 언어로 글 쓸 수 있다

구글 USM, 현재까지 300개 언어 지원… 1,000개까지 확장 예정 매개변수 무려 20억개로 구성, 유튜브에서 일부 언어 자막 만들 때도 이용된다 18개 언어에서는 오픈AI AI 전사 모델 위스퍼보다 낮은 단어 오류율 기록

2
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 학회(Global Managerial Data Science Association)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=게티이미지

최근 구글이 유니버셜 스피치 모델(Universal Speech Model, 이하 USM)의 확장을 발표했습니다. 현재까지 300개 이상의 언어를 지원한다고 합니다.

구글은 지난 11월 가능한 한 많은 언어를 지원하는 머신 러닝 모델을 구축할 계획임을 밝혔습니다. 이번 USM 확장도 이 계획의 일환이죠. 오픈AI의 챗GPT 등 거의 모든 주요 모델은 영어 외의 언어를 제한적으로만 지원하는 것을 생각하면 사뭇 인상적인 목표입니다.

프로젝트 마일스톤이 기록되는 블로그 게시물에 따르면 구글 리서치(Google Research) 소속 과학자 우 장(Yu Zhang)과 소프트웨어 엔지니어 제임스 친(James Qin)은 USM이 현재 무려 20억개의 매개변수로 구성돼 있고, 1,200만시간 분량의 음성과 280억개의 텍스트 문장에 대한 훈련을 받았다고 말했습니다.

사진=AI 비즈니스

구글의 최종 목표는 USM을 1,000개 언어에서 작동하게 만드는 것입니다. 이게 되나 싶을 정도인데요, 구글은 이번의 성공 경험에 기반하면 최종 목표 달성도 충분히 가능하다고 보고 있습니다.

USM은 표준 인코더-디코더 아키텍처에 기반하는데, 컨포머(Conformer), 즉 컨볼루션 증강 트랜스포머를 사용해 음성 신호의 로그-멜 스펙트로그램 신호를 입력받고 컨볼루션 서브 샘플링을 수행합니다. 이후 컨포머 블록 집합과 프로젝션 레이어를 적용, 최종 임베딩을 얻습니다.

그런데 이번에는 조금 다른 접근 방식을 적용했는데, 간단히 설명하자면 레이블이 지정되지 않은 대형 다국어 데이터 세트를 사용해 모델의 인코더를 사전 훈련한 뒤 레이블이 지정된 더 작은 데이터 세트에서 미세 조정을 하는 과정을 거쳤다고 합니다. 그 결과 300개 언어를 지원한다는 목표를 성공적으로 달성했죠.

구글 연구팀은 이 접근 방식이 새로운 언어에 ML 모델을 적용하는 데 있어 기존 기술보다 효과적이라고 말했습니다.

구글은 이미 USM으로 암하라어(에티오피아 공용어), 세부아노어(필리핀 세부아노족의 언어), 아삼어(인도 아삼 주 공용어), 아제르바이잔어 등 자료가 그렇게 많지 않은 언어로 된 유튜브 자막을 만들고 있습니다. 이때 USM의 단어 오류율은 73개 언어 평균 30% 미만이라고 합니다.

구글 연구팀은 USM이 약 18개 언어에 대해 오픈AI의 위스퍼보다 낮은 단어 오류율을 보인다고 주장했습니다.

하지만 장 연구원과 친 연구원은 언어의 적용 범위와 품질 모두를 넓히기 위해 계산의 효율성을 개선해야 최종 목표, 즉 1,000개 언어 지원을 달성할 수 있다고 지적했습니다.

이들은 블로그 게시물을 통해 “이를 위해서는 유연하고 효율적이며 일반화할 수 있는 학습 알고리즘이 필요합니다. 구체적으로 설명하자면 다양한 소스에서 많은 데이터를 사용할 수 있고, 완전한 재교육을 받지 않아도 모델 업데이트를 할 수 있으며, 새로운 언어와 사용 사례로 일반화할 수 있는 알고리즘이 필요하다는 겁니다.”라는 설명을 덧붙였습니다.


Google has unveiled an expansion to its Universal Speech Model (USM), saying it now supports over 300 languages.

The USM is part of Google’s pledge made last November to build a machine learning model that encompasses as many languages as possible. Most main models like OpenAI’s ChatGPT offer limited language support outside of English.

In a blog post announcing the milestone, Google Research scientist Yu Zhang and software engineer James Qin said USM now boasts two billion parameters and has been trained on 12 million hours of speech and 28 billion sentences of text.

Google’s ultimate goal for USM is for it to work across 1,000 languages – a mammoth task, but one its researchers contend is achievable based on the success of its recent work.

Using a standard encoder-decoder architecture, USM uses a Conformer, or convolution-augmented transformer, which takes the log-mel spectrogram of speech signals as input and performs a convolutional sub-sampling. Then, a series of Conformer blocks and a projection layer are applied to obtain the final embeddings.

In simpler terms, The Google researchers achieved the 300 language milestone by using a large unlabeled multilingual dataset to pre-train the encoder of the model and then fine-tuned it on a smaller set of labeled data.

The research team said that this approach was more effective at adapting an ML model for new languages than prior techniques.

The model is already being used by Google’s YouTube platform to generate closed captions for “under-resourced” languages like Amharic, Cebuano, Assamese and Azerbaijani, among others. The model achieves less than a 30% word error rate on YouTube on average across 73 languages.

The researchers tout that in its current form, USM has a relatively lower word error rate than OpenAI’s Whisper model for some 18 languages.

However, to achieve its lofty goal of 1,000 languages, Zhang and Qin note that computational efficiency needs to be improved to expand both language coverage and quality.

“This requires the learning algorithm to be flexible, efficient, and generalizable. More specifically, such an algorithm should be able to use large amounts of data from a variety of sources, enable model updates without requiring complete retraining, and generalize to new languages and use cases,” the post reads.

Similar Posts