[해외 DS] 애플, 이미지와 텍스트를 아우르는 첫 멀티모달 모델 'MM1' 공개

최대 300억 개의 매개변수 지원, 사용자의 지시에 따라 이미지 전반을 추론
인컨텍스트 학습, 다중 이미지 추론, 효율적인 MoE 변형 및 최적화된 데이터 처리 전략 등의 기능을 갖추고 있어
어떤 용도로 사용될지 아직 밝히지 않았지만, 향후 Siri 개선·iMessage 기능 강화 등에 활용될 것으로 기대돼

Apple_First_Multimodal_AI_20240320 — 사진=Pexels

최근 애플은 이미지와 텍스트를 처리할 수 있는 멀티모달 모델 ‘MM1’을 미국 코넬대 논문 저장 사이트 ‘아카이브(arXiv)’에 공개했다. 이 모델은 최대 300억 개의 매개변수를 지원하며 사용자의 지시에 따라 이미지 전반을 추론할 수 있는 능력이 있다.

효율성과 확장성을 위한 MoE 변형과 최적화된 데이터 처리 전략

MM1은 인컨텍스트 학습(in-context learning)을 지원하므로 새로운 유형의 쿼리나 작업에 대해 명시적으로 재교육하거나 미세 조정할 필요 없이 현재 대화에서 제공되는 문맥을 기반으로 질의를 이해하고 응답할 수 있다고 연구진은 밝혔다. 인컨텍스트 학습은 모델이 이전에 본 적이 없는 콘텐츠를 기반으로 이미지에 대한 설명을 생성하거나 사진 기반 프롬프트의 내용에 관한 질문에 답할 수 있게 한다.

MM1은 또한 다중 이미지 추론도 지원하므로 동일한 쿼리 내에서 여러 이미지를 이해하고 해석하여 결론을 도출할 수 있다. 다중 이미지 추론을 통해 시각적 콘텐츠와의 보다 복잡하고 미묘한 상호작용을 처리할 수 있다고 전했다. 향후 MM1의 다중 모드 이해 기능을 통해 애플은 이미지를 기반으로 질문에 답할 수 있게 함으로써 음성 비서 시리(Siri)를 개선하고, 아이메시지(iMessage) 내에서 공유된 이미지와 텍스트의 맥락을 이해하여 사용자에게 더욱 관련성 높은 답변을 제안할 수 있을 것으로 기대된다.

애플의 새로운 대형 멀티모달 모델에는 성능을 향상하는 몇 가지 메커니즘이 있다. 그중에는 시각적 데이터와 텍스트 데이터를 동시에 처리하는 하이브리드 인코더가 있는데, 이를 통해 MM1은 두 가지 데이터 형식을 통합한 콘텐츠를 이해하고 생성할 수 있게 된다. MM1의 또 다른 핵심 구성 요소는 비전-언어 커넥터다. 이는 이미지 인코더가 처리하는 시각적 인식과 언어 모델이 처리하는 텍스트 이해 사이의 틈을 메워준다. 기본적으로 비전-언어 커넥터는 이미지와 텍스트를 처리하는 모델의 개별 기능을 통합하여 이미지의 시각적 인식과 언어 이해가 함께 작동할 수 있도록 한다.

아울러 MM1은 기존의 신경망 모델과 전문가 혼합 모델(Mixture-of-Experts, MoE) 변형을 모두 사용하기 때문에 확장 가능하고 효율적이다. 특히 MoE를 사용하면 추론 중 계산 비용을 늘리지 않고도 모델 용량을 늘릴 수 있는 장점이 있다. 간단히 말해 MM1은 효율적이면서도 더 많은 것을 처리할 수 있다. 또한 이름에서도 알 수 있듯이 각 전문가 모델이 단어, 그림, 코드를 분리해 해를 찾고 이를 종합하여 답하는 방식으로 작동한다. 더 나아가 연구팀은 다양한 데이터 유형이 모델 성능에 미치는 영향을 조사하는 광범위한 연구를 통해 최적화된 데이터 처리 전략을 발굴했다. 예를 들어, 연구팀은 이미지-캡션이 있는 이미지-텍스트와 텍스트 전용 데이터를 혼합하여 사용하는 대규모 멀티모달 사전 학습의 경우가 최고의 성능을 달성하는 데 결정적이라는 사실을 밝혀냈다.

인공지능 영역에 큰 기여, 효율적인 AI 시스템 개발을 위한 핵심 정보 제공

성능 측면에서 300억 개의 파라미터가 포함된 MM1은 멀티모달 벤치마크에서 다른 모델보다 뛰어난 성능을 보였다. MM1은 크기가 두 배 이상 큰 플Flamingo 및 IDEFICS와 같은 모델을 능가했다.

Apple_First_Multimodal_AI_2_20240320 — 사진=애플

일부 업계 관계자들은 애플의 이번 연구 결과 발표는 인공 지능 영역에 크게 기여 했다고 높게 평가했다. 먼저 연구의 내용이 포괄적이다. 모델의 아키텍처와 데이터의 다양한 조합의 절충, 그리고 각 부분이 학습된 모델의 결과에 어떤 영향을 미치는지에 대해 논의한 인사이트를 공유함으로써 애플은 챗GPT와 같은 모델에 도전할 뿐만 아니라, AI 커뮤니티가 그 결과를 바탕으로 더 정교하고 유능한 AI 시스템을 구축하도록 도왔다는 것이다. 또한 대규모 모델을 학습시키는 데에 막대한 비용이 드는 시대에 이러한 인사이트는 투자 대비 최대의 효과를 얻기 위해 어디를 최적화하고 어디를 줄여야 하는지를 알려주는 핵심적인 정보를 담은 지침서라고 일부 전문가들은 바라봤다.

지난달에는 애플이 자율주행차 프로젝트 타이탄을 중단하고 제너레이티브 AI에 집중한다는 소식이 전해졌다. 애플은 마이크로소프트나 구글과 달리 조용히 AI 프로젝트를 진행해 왔는데, 아직 구체적인 내용은 공개되지 않았지만, 지난여름에는 자체 웹 애플리케이션 기반 챗봇 서비스인 ‘Apple GPT’를 개발 중이라는 보도가 있었고, 개발자들이 애플의 하드웨어에서 대규모언어모델을 학습하고 실행할 수 있는 오픈소스 툴킷인 ‘MLX’를 공개했다. 멀티모달 모델을 연구하는 애플 수석 연구 엔지니어 브랜던 매켄지(Brandon McKinzie)에 따르면 MM1은 “시작에 불과하다”고 한다. 또한 그는 애플이 “이미 차세대 모델을 개발하기 위해 열심히 노력하고 있다”고 언급했다. 한편 애플은 MM1이 어떤 용도로 사용될지 아직 밝히지 않았다.

[해외DS] 이번 주 AI 소식: 스포티파이, AI 기반한 주머니 속 DJ 출시

Senior Analyst Taesun Lee 2023-03-06 09:002023-04-02 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. AI 비즈니스가 AI 업계의 최신 딜과 신제품 출시 소식을 정리했습니다. 이번 주에는 스포티파이(Spotify)의 AI 기반 DJ, 텐센트(Tencent)의 챗GPT 대항마 개발 계획, 오터.ai의 AI 기반 회의 도우미에 관한 내용을 다뤘습니다….

[해외DS] 과학자들이 AI를 사용해 동물과 대화하는 방법

Senior Analyst Siho Lee 2023-02-09 09:002023-04-02 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 1970년대, 전 세계는 코코라는 이름을 가진 어린 고릴라에 주목했습니다. 코코는 무려 인간의 수화를 쓸 수 있었기 때문입니다. 하지만 회의론자들은 코코를 비롯한 ‘말하는 방법’을 ‘배운’ 동물들(침팬지나 돌고래도 여기에 포함됩니다.)이 자기가…

[해외 DS] AI 챗봇, 개인 정보 유출 우려되는데 관련 규제는 미비

Senior Analyst Taesun Lee 2023-07-19 09:002023-07-31 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 지난 4월 미 당국이 마사추세츠 주방위군(Massachusetts Air National Guardsman) 소속 공군 잭 테세이라(Jack Teixeira)를 디스코드에 정부 기밀 문건을 유출한 혐의로 기소했다고 밝혔다. 총기 애호가라고도 알려진 테세이라는 범행 초기 디스코드의…

[해외DS] 스마트 알고리즘, 팬데믹 가능성 있는 동물 바이러스 찾아낸다 (1)

Senior Analyst Siho Lee 2022-11-16 09:002023-04-02 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 지난 2021년 2월 러시아 소재 가금류 농장 한 곳의 노동자 7명이 H5N8형 조류 인플루엔자에 감염됐다는 사실이 보고됐습니다. H5N8로 분류되는 인플루엔자가 인간을 감염시킨 최초의 사례인데, 해당 보고 직후 그 H5N8…

[해외 DS] 테일러 스위프트도 당했다, ‘딥페이크’ 연방 규제 늦었지만 하루빨리 시행돼야

Analyst Hyojung Lee 2024-02-20 17:242024-02-20 해외AI/DS소식

생성형 AI 악용으로부터 개인을 보호하기 위한 법적 미비가 낳은 비극 명확한 연방 규제 부재와 법 집행의 어려움에 직면한 피해자들, “취약한 상태에 놓여” 딥페이크와 관련된 법적 환경이 불확실하므로 피해자의 가시성에 따라 불평등한 대우 발생 [해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다….

[해외DS] 거래 조합, EU AI 법 시행 ‘사실상 불가능’하다 주장

정서원 기자 2022-09-29 09:002023-04-13 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 전 세계 소프트웨어 제조업체를 대표하는 산업 조합인 소프트웨어연합(BSA, (Business) SoftWare Alliance) 은 현재의 AI 법안에서 범용 AI 툴과 관련된 요구 사항을 뺄 것을 EU에 촉구했습니다. BSA는 보고서를 통해 “EU의 AI…