[해외 DS] 페어리 트레인드, 생성형 AI의 '공정 학습' 인증 프로그램 도입

AI 회사들은 '공정 사용'을 내세워 저작권 문제를 우회하려고 시도해
페어리 트레인드, 라이선스가 있는 데이터를 사용하는 '공정 학습'을 제안
인간 창작자에 대한 존중과 책임감 있는 AI 개발 문화 조성을 강조

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다.

AI_Copyright_Fairly_Trained_ScientificAmerican_20240312 — 사진=Scientific American

생성형 AI 시스템은 텍스트, 이미지, 영상 등 인간이 만든 방대한 콘텐츠에서 영감을 얻고 학습한다. AI 회사들은 종종 ‘공정 사용’이라는 논리를 내세워 창작자와 상의하거나 비용을 지급할 필요 없이 모델을 학습시키는 것이 허용돼야 한다고 주장하고 있다. 심지어 인기 이미지 생성기인 스테이블 디퓨전을 만든 스태빌리티 AI는 작년 10월 미국 저작권청에 보낸 성명에서 “AI 개발을 위한 기존 콘텐츠의 사용은 공정 사용으로 보호되는 한 허용 가능하고, 혁신적이며, 사회적으로 유익하다”고 역설했다.

공정 사용 논란과 공정 학습을 위한 노력

하지만 문제는 공정 사용 관점이 보편적이지 않다는 데에 있다. 일례로 오픈AI는 챗GPT의 등장 이후 불과 1년여 만에 20여 건에 달하는 소송과 조사 등에 얽혀 있다. 현재 저작권이 있는 자료의 무단 사용에 대한 반발이 거세지고 있으며 책임감 있는 AI 사용 의식도 개인과 국가 차원에서 점차 개선되는 중이다. 그 결과 법적 위험 부담이 커지고 있어 AI 시장의 생태계 조정이 시급하다는 우려의 목소리가 높아지고 있다. 컴퓨터 과학자 에드 뉴턴-렉스(Ed Newton-Rex)도 이와 비슷한 감정으로 인해 스태빌리티 AI에서 퇴사하게 됐다. 그는 학습 데이터가 GPU와 AI 인재에 이어 AI 시스템을 구축하는 데 필요한 세 가지 주요 자원 중 하나인데, 수백만 달러를 투자하고 있는 다른 두 자원과 달리 학습 데이터를 공짜로 얻으려는 시도가 어떻게 정당화될 수 있는지 모르겠다고 밝혔다.

뉴턴-렉스는 현재 라이선스가 있는 자료로만 생성형 AI 모델을 학습시키는 기업을 인증하는 비영리 단체인 페어리 트레인드(Fairly Trained)를 설립했다. 페어리 트레인드는 이름에서도 그 뜻을 알 수 있듯이 ‘공정 학습’을 추구하며 모델이 어떻게 개발되는지 명확히 하는 것을 목표로 하고 있다. 따라서 인증을 받기 위해 기업은 라이선스가 있는 학습 데이터를 사용하고 라이선스 계약 준수를 보장하기 위한 내부 절차에 대해 자세히 보고해야 한다. 물론 페어리 트레인드에서 고객의 시스템을 직접 들여다보지 않기 때문에 현재 많은 부분이 신뢰에 기반하고 있는 것이 사실이다. 하지만 스태빌리티 AI처럼 라이선스가 없는 데이터를 사용하는 것에 거리낌이 없고, 이를 공개하는 개방적인 분위기가 형성되어 있어 인증에 관한 신뢰 측면을 크게 우려하지 않는다고 뉴턴-렉스는 전했다.

페어리 트레인드 인증의 한계와 텍스트 생성 모델 인증의 어려움

그러나 일각에서 페어리 트레인드의 인증 대상이 제한적이라는 지적이 나왔다. 시중에는 수많은 생성형 AI 모델이 있으며, 그중에는 세계 최대 규모의 기술 기업이 만든 모델도 있는데, 지금까지 9개 인증 승인 모두 비교적 작은 회사에서 이뤄졌다. 최근에 마지막으로 인증받은 이스라엘의 AI 회사 브리아(Bria)도 2,400만 달러의 시리즈 A 투자를 유치한 스타트업이다. 뉴턴-렉스는 의도적으로 이러한 소규모 AI 회사와 협업을 진행했다고 밝혔는데, 작은 회사의 경우 일부 대기업에서 볼 수 있는 관료주의가 없기 때문에 초기 인증 사례 대상으로 적합하다고 그 이유를 설명했다. 게다가 큰 규모의 AI 회사 중 상당수가 인증 기준에 부합하지 않았다고 덧붙였다.

한편 인증을 받은 모델 모두 음악, 오디오 또는 이미지와 관련이 있었는데, 텍스트를 생성하는 모델은 하나도 없었다. 그의 설명에 따르면 현재로서는 인증을 받을 수 있는 대규모언어모델(LLM)이 존재하지 않았다. 모든 텍스트가 라이선스가 있거나 퍼블릭 도메인 또는 올바른 종류의 오픈 라이선스 하에 있는 모델을 출시하는 것이 사실상 불가능하다는 것이다. 안타깝게도 지난 1년 반 또는 2년 동안 대다수의 기술 기업이 생성형 AI 시장에서 우위를 차지하기 위해 무분별한 대규모 학습을 감행해 출처에 대한 라이선스 구별 가능성 자체가 묘연해졌기 때문이라고 그는 분석했다. 또한 그는 일부 기업에서 반박하는 것처럼 블로그, 게시물, 코드, 정부 문서 등 거의 모든 텍스트 데이터가 저작권 보호를 받고 있기 때문에 저작권 데이터의 사용이 불가피하다고 주장할 것이 아니라, 소량의 데이터로 학습되고 라이선스가 부여되는 언어 모델을 개발하는 방향으로 기업에서 더 많이 노력해야 한다고 꼬집었다.

지속가능한 창작 활동을 위한 인간과 AI의 상호 존중

뉴턴-렉슨은 인간 예술가와 함께 평화롭게 공존할 수 있는 생성형 AI의 미래를 꿈꾼다고 말했다. 특히 공정 학습 인증을 통해 대중들이 어떤 기술 기업이 인간 창작자의 저작권을 존중하는 데 적극적인지를 구별할 수 있게 하는 것에 방점을 뒀다. 개인 창작자들에 대한 보상에 대해 논의하기에 앞서 라이선스 데이터 사용에 대한 동의를 구하는 것이 선행돼야 하며, 이는 곧 해당 기업의 저작권 문제를 향한 민감도를 엿볼 수 있는 기회라고 그는 바라봤다. 인간의 창작물을 기반으로 지금의 AI 모델을 개발할 수 있었기 때문에 앞으로 더 유용한 모델을 얻기 위해선 인간의 창작 활동을 존중하고 격려하는 노력이 뒷받침돼야 한다는 것이다. 인간 창작자에 대한 존중을 바탕으로 창작의 선순환을 만들어야 한다는 것이 페어리 트레인드의 핵심 가치다.

마지막으로 AI 연구와 함께 뉴턴-렉슨은 합창 음악을 작곡하는 클래식 작곡가이기도 하다. 그는 자신의 예술적 활동이 크리에이터를 옹호하는 데 동기를 부여했다며, “이 문제는 항상 나의 마음에 가까운 문제였으며, 이는 내가 음악가이기 때문이라고 생각한다”고 그는 전했다. 이처럼 예술 작품의 저작권 문제를 향한 그의 진정성과 스태빌리티 AI의 임원이었던 그의 전문성을 보고 합류한 4명의 자문위원도 함께 주목받고 있다. 이 위원회의 위원으로는 애플 시리(Siri)의 공동 제작자 톰 그루버, 변호사 엘리자베스 무디, 작곡가 맥스 리히터, 미국 출판사 협회의 최고 경영자인 마리아 팔란테가 있다.

영어 원문 기사는 사이언티픽 아메리칸에 게재되었습니다.

[해외 DS] 뉴로모픽 컴퓨터 시스템, 인간의 두뇌를 모방한 새로운 AI 회로

Kwangjae Kim 2024-02-14 16:292024-02-15 해외AI/DS소식

메모리와 프로세싱을 통합한 새로운 트랜지스터 개발 상온에서 작동하며 기존 소자 대비 20배 적은 에너지 소비 현재 제조 방법은 확장성이 없지만, 추가 연구를 통해 해결할 전망 [해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다. 인공지능과 인간의 사고는 모두 전기로 작동하지만, 인공지능의 출력은…

[해외 DS] 백악관에 모인 美 빅테크 7개 기업 수장들, “책임 있는 AI 개발 앞장 서겠다”

Senior Analyst Siho Lee 2023-07-24 09:002023-08-12 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 폭스뉴스, 뉴욕타임스(NYT) 등에 따르면 21일(현지시간) 미국 대통령 바이든이 아마존, 오픈AI, 메타, 인플렉션AI, 앤트로픽, 구글, 마이크로소프트의 7개 AI 빅테크 기업을 초청해 사담을 가진 것으로 알려졌다. 해당 사담에서 바이든은 AI 기업들에…

[해외 DS] 학생들이 직접 ChatGPT 사용해 봐야 AI 교육 효과 있어

Senior Analyst Taesun Lee 2023-11-16 18:542023-11-16 해외AI/DS소식

ChatGPT의 텍스트 생성 능력으로 인해 교육계에 새로운 고민이 생겼다. 크리스토퍼 하웰 교수는 학생들이 직접 ChatGPT를 활용하도록 하여 학생들에게 모델의 결함을 인지하도록 유도했다. 하웰 교수의 실험 결과, ChatGPT의 에세이에는 모두 오류가 발견됐다. ChatGPT는 아직 완벽하지 않으므로 학생들이 ChatGPT를 올바르게 사용하기 위해서는 올바른 교육이 필요하다. AI에 의존하면 학생들의 사고 능력이 저하될 수 있어서, 교육 과정에서 학생들은 느리지만 사고 과정을 온전히 습득하는 데 집중해야 한다는 점을 강조해야 한다.

[해외 DS] 범용 인공지능, 아직은 먼 미래다

Analyst Hyojung Lee 2022-06-07 09:002023-04-07 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 일반인이 보기에는 인공지능 분야가 엄청난 발전을 이루고 있는 것처럼 보일 것입니다. 뉴스와 SNS에서는 OpenAI의 DALL-E2가 어떤 텍스트에 대해서든 멋진 이미지를 생성할 수 있는 것처럼 보도하고 있습니다. 또한 OpenAI의 GPT-3은 간단한…

[해외DS] AI 이미지 생성기 DALL-E 2 베타 출시

Analyst Hyojung Lee 2022-07-29 09:002023-04-13 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 지난해 오픈AI가 출시한 DALL-E, 알고 계시나요? 텍스트 프롬프트에서 이미지를 생성하는 기능으로 소셜 미디어에서 큰 인기를 얻은 프로그램이죠. 그런데 최근 이 프로그램의 2세대 베타 버전이 출시됐습니다. 오픈AI는 대기자 명단에 있는 사용자…

[해외 DS] AI 불안 증폭하는 문화예술계, 멘탈 관리 어떻게 해야 할까

Analyst Hyojung Lee 2023-10-06 09:002023-10-07 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 생성형 인공 지능의 급속한 발전으로 인해 업무의 미래와 인간의 창의성에 대한 큰 의문이 제기되고 있다. 인공지능이 인간을 능가하는 것처럼 보이는 뉴스가 끊임없이 쏟아져서 AI에 대한 두려움도 증가했다. 한…