[해외 DS] 오픈AI의 새로운 텍스트 투 비디오 생성기, '소라'에 대해 알아야 할 모든 것

소라, 텍스트 프롬프트 입력으로 1분 동영상 생성 기능 제공
전문가들에 따르면 기존 기술에서의 확장일 뿐, 큰 기술적 도약은 아니야
윤리 및 허위 정보 우려와 함께 저작권 문제에 대한 대응책 마련 중

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.

Sora_OpenAI_ScientificAmerican_20240305 — 사진=Scientific American

언뜻 보면 뮤직비디오나 세련된 자동차 광고 영상처럼 보이는 위 사진은 선글라스를 쓴 여성이 보행자와 밝은 불빛의 간판으로 둘러싸인 밤거리를 걸어가는 장면이다. 하지만 화면 너머의 여성은 존재하지 않으며 거리도 존재하지 않는다. 영상에 등장하는 모든 것은 오픈AI의 새로운 ‘텍스트 투 비디오’ 도구인 ‘소라(Sora)’로 제작됐다. 소라에 간단한 정지 이미지나 프롬프트를 입력하면 최대 1분 분량의 동영상을 만들어낸다.

오픈AI는 소라로 생성한 수십 개의 샘플 동영상을 블로그 게시물과 간단한 기술 보고서, 그리고 CEO 겸 설립자인 샘 알트먼의 계정을 통해 X(이전의 트위터)에 공유했다. 지난달 15일에 소라를 발표했지만 아직 일반에 공개하지는 않았다. 현재 일부 아티스트와 ‘레드팀’ 해커 그룹이 생성기를 테스트하고 있기 때문에 접근을 제한하고 있다고 전했다.

출력물의 길이와 사실감 측면에서 볼 때, 소라는 AI가 생성하는 동영상 중에 당연히 최고의 품질을 자랑한다. “소라가 보여주는 품질 수준에 매우 놀랐다”고 미국 미시간대학교 전기공학 및 컴퓨터과학의 박정준 교수는 강조했다. 그는 현재 머신러닝을 사용하여 생성적 3차원 모델링 기법을 개발하고 있다. 그리고 불과 7개월 전, 박정준 교수는 사이언티픽 아메리칸과의 인터뷰에서 텍스트만으로 사실적인 영상을 제작할 수 있는 AI 모델은 큰 기술적 도약이 필요한 먼 미래의 일이라고 생각한다고 밝힌 바 있다. “비디오 생성기가 이렇게 빨리 발전할 줄은 몰랐고, 소라의 품질은 예상을 완전히 뛰어넘었다”고 그는 덧붙였다.

소라, 기존 AI 도구와 어떻게 다른가?

소라는 프롬프트에 입력된 텍스트와 상관관계가 높은 영상 콘텐츠를 연결하도록 훈련된 매우 큰 컴퓨터 프로그램이다. 좀 더 기술적으로 설명하자면 소라는 다른 많은 이미지 생성 AI 도구와 마찬가지로 확산 모델 기반이며, 챗GPT와 유사한 트랜스포머 인코딩 시스템을 갖추고 있다. 개발자들은 비디오 클립에서 시각적 노이즈를 제거하는 반복적인 과정을 통해 텍스트 프롬프트에서 영상을 출력하도록 소라를 학습시켰다. 소라와 일반 이미지 생성기의 가장 큰 차이점은 텍스트를 정지 픽셀로 인코딩하는 대신 단어를 시간적-공간적 블록으로 변환하여 영상을 생성한다는 점이다. 구글의 뤼미에르(Lumiere)와 다른 많은 모델도 비슷한 방식으로 작동한다.

오픈AI는 소라로 최대 60초 길이의 동영상을 생성할 수 있고, 사용자가 추가적인 클립을 순서대로 생성하도록 요청하면 그 길이를 더 늘일 수 있다고 말했다. 이는 기술적으로 난이도가 높은 일인데, 이전의 생성형 AI 도구는 프롬프트 사이는 물론이고 비디오 프레임 간의 일관성을 유지하는 데도 어려움을 겪었다. 그러나 전문가들은 소라가 머신러닝 기술 자체에서 큰 도약을 이룬 것은 아니라고 지적했다. “소라의 알고리즘은 기존 방식과 거의 동일하다. 단지 더 큰 데이터와 모델로 확장했을 뿐이다”고 박정준 교수는 말했다. 미국 카네기멜론대의 컴퓨터과학 루슬란 살라쿠트디노프(Ruslan Salakhutdinov) 교수도 “반드시 새로운 것은 아니다”라며, “무차별 대입 방식(brute force approach)이 적용 됐다”고 전했다.

일부 전문가들은 오픈AI가 언리얼 엔진과 같은 비디오 게임 디자인 프로그램에서 생성된 합성 데이터를 함께 사용했을 것으로 추측했다. 살라쿠트디노프 교수는 출력물의 비정상적으로 매끄러운 모양과 일부 영상의 카메라 각도를 미루어 보아 그럴 가능성이 높다는 데 동의한다며, 비디오 게임의 인공성과 닮은 점이 소라가 놀랍긴 하지만 완벽하지 않은 이유 중 하나라고 설명했다. 특히 공개된 샘플 영상에서 여성이 걷는 영상을 자세히 살펴보면 특정 디테일이 어긋난다는 것을 알 수 있다. 드레스 밑단이 천인 것에 비해 너무 뻣뻣하게 움직이고 카메라 패닝이 이상할 정도로 매끄럽지 않다. 클로즈업 컷에서는 드레스에 이전에는 없던 얼룩덜룩한 무늬가 생겼고, 일부 장면에서는 목걸이가 빠져 있거나, 가죽 재킷의 옷깃에 있는 여밈이 움직이고 재킷 자체가 길어지는 등의 불일치는 오픈AI가 지금까지 공유한 동영상 전반에 걸쳐 나타난다. 이는 오픈AI가 과대광고 논란을 피하고자 일부러 고른 것일 가능성이 높다.

소라의 부상과 생성형 AI의 고질병, 윤리·저작권 문제

한편 생성형 AI가 등장할 때마다 그렇듯이 저작권 침해와 윤리적 문제에 대한 비판의 목소리도 높아지고 있다. 소라는 이미지를 생성하는 다른 모델과 마찬가지로 학습 데이터에 저작권이 있는 자료가 포함되어 있을 가능성이 높다. 이에 오픈AI는 소라를 공개하기 전 메타데이터 기반의 워터마크를 장착하는 등 생성형 AI 기술의 부작용을 최소화하겠다고 밝혔다. 플랫폼의 내부 테스트, 콘텐츠 가드레일, 메타데이터를 사용하여 콘텐츠의 출처를 쉽게 파악할 수 있도록 하는 C2PA(Coalition for Content Provenance and Authenticity) 표준 프로토콜 사용하여 소라를 더 안전하게 만들기 위한 조치를 취하고 있다고 강조했다.

하지만 사용자가 메타데이터를 제거하는 것을 방지하는 기능을 달리3(오픈AI의 이미지 생성기)에서조차 찾을 수 없는 게 현 실정이다. 더 나아가 워터마크와 메타데이터는 아직 기술적으로 완성도가 높지 않으며 우회 방법도 계속 개발되고 있다. 따라서 전문가들은 소라를 이용한 허위 정보 유포 및 확산은 막기 어려울 것으로 예상했다. 기존의 가짜 동영상을 제작하기 위해서는 AI를 이용한 조작과 실제 영상을 조합하여 작업해야 했는데, 텍스트-투-비디오 플랫폼은 사용자의 소스 자료가 필요 없기 때문에 잠재적인 남용을 가속화하고 확대할 전망이라는 것이다. 미국 캘리포니아대학교 버클리캠퍼스의 하니 파리드 컴퓨터과학 교수는 소라와 같은 도구가 딥페이크 포르노와 정치적 선전을 포함한 유해 콘텐츠의 ‘증폭 요인’이 될 수 있다고 경고했다.

그러나 잘못된 정보와 허위 정보를 연구하는 미국 메릴랜드대학교의 아이린 파스케토(Irene Pasquetto) 교수는 소라 외에도 허위 정보는 존재하며, 이 문제를 해결하는 것은 궁극적으로 기술적 문제가 아니라 사회적 문제라고 언급했다. 또한 파스케토 조교수는 소라의 위험성이나 피해 가능성을 과장하는 것은 AI에 대한 과대광고를 부추길 수 있다고 우려했다. 소라가 짧은 동영상을 더 쉽고 빠르게 제작할 수 있게 해주지만, 그 자체로 새로운 문제를 야기하는 것은 아니라고 지적하며, 피해를 맥락에 맞게 파악하고 근본 원인에 집중하는 것이 더 중요하다고 그녀는 말했다.

영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.

[해외 DS] 인공지능의 미래, 진화의 역사로부터 배울 수 있는 교훈

Senior Analyst Taesun Lee 2023-11-10 09:002023-11-16 해외AI/DS소식

장기적으로 AI와 경쟁할 수 있는 역량을 키워야 한다. AI는 인간의 노동력을 대체하고, 새로운 서비스를 창출하면서 인간의 삶을 변화시킬 것이다. 이러한 변화에 대응하기 위해서는 인간이 혁신을 통해 새로운 틈새를 개척해야 한다. 한편 단기적으로 AI의 발전에 따른 불평등 악화를 방지해야 한다. AI는 기존의 일자리를 대체하고, 소수의 자본가가 AI를 독점할 경우 불평등이 심화될 수 있다. 따라서 AI의 발전에 따른 불평등 악화를 방지하기 위한 정책적 노력이 필요하다. 이러한 과제들을 해결하기 위해서는 인간과 AI가 협력하는 것이 중요하다. 인간은 AI의 강점을 활용하여 새로운 가치를 창출하고, AI는 인간의 창의성과 감성을 보완하여 인간의 삶을 더 풍요롭게 만들어 줄 수 있다.

[해외 DS] 디지털에서 All-아날로그로, ‘풀 악셀(ACCEL)’ 밟는 中 AI 반도체

Senior Analyst Taesun Lee 2023-11-06 09:002023-11-16 해외AI/DS소식

중국 칭화대학의 과학자들은 아날로그 광전자 ACCEL 칩을 개발했는데, 이는 최신 GPU보다 3,000배 빠르고 400만 배 효율적이며 컴퓨터 비전 작업에서 전례 없는 성능을 자랑했다. 이 칩은 빛을 이용하여 정보를 처리하는 포토닉 컴퓨팅을 사용하며, 전력 소모가 낮고 초고속 컴퓨팅을 제공합니다. ACCEL 칩은 회절 광학 아날로그 컴퓨팅과 전자 아날로그 컴퓨팅을 결합하여 놀라운 에너지 효율과 뛰어난 컴퓨팅 속도를 달성했는데, 이는 이미지 처리와 물체 분류 작업에서 경쟁력 있는 성능을 보여줬다. 디지털 기술의 발전으로 아날로그 데이터 처리가 재조명되고 있는 사례다.

[해외DS] 데이터로 더 오래, 더 건강하게 살기 (1)

정서원 기자 2022-12-09 09:002023-04-02 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 지난 7일 Scientific American은 Phenome Health에 대한 기사를 발행했습니다. Phenome Health는 건강 분야의 혁신과 사회 변화 실현에 집중하는 비영리 재단으로, 개개인의 ‘현상’을 이해하기 위해 유전자, 행동, 환경 데이터를 활용한…