[해외 DS] AI 학습 데이터, 스마트한 IP 법이 필요하다 (1)

제도를 활용한 기술 혜택 증진 필요, 두려움에 매몰되면 안 돼 AI 위협에 맞선 규제 강화해도 저작권 침범 및 보상 문제 남아 과도기 맞은 국가들, 아직 결정 안된 나라도 있어

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

한때 추측과 의심이 가득했던 인공지능에 대한 반응은 이제 혁명적인 기술 변화에 대한 희망과 두려움으로 변했다. 이미 일부 영역에서 인간의 능력을 능가하는 이러한 지능형 시스템과 그 규제를 둘러싼 불확실성이 큰 상황이다. 이럴 때일수록 해당 기술을 보호하거나 관리하는 방법에서 올바른 선택을 내려야 과학과 의학이 발전하고 전반적인 삶의 질이 향상된다. 또한 적절한 제도를 통해 기술의 혜택을 키워야 AI에 대한 막연한 종말론적 두려움도 이겨낼 수 있다.

OpenAI의 ChatGPT와 같은 AI 챗봇이 공개적으로 도입되면서 많은 경고가 이어졌다. 뉴욕주의 척 슈머 상원 원내대표는 AI가 “직장, 학교, 가정 등 거의 모든 삶의 영역에 극적인 변화를 가져올 것”이라고 말했고, 블라디미르 푸틴 러시아 대통령은 “이 분야에서 지도자가 되는 사람이 세계의 지배자가 될 것”이라고 주장하기도 했다. AI 업계 리더들도 제약 없는 AI가 가져올 끔찍한 결과에 대해 경고했다.

단순 규제 넘어 저작권 이해 충돌 해결 방안 필요해

6월 14일, 유럽 의회는 유럽 위원회가 제안한 69페이지 분량의 제안서에 대한 771개의 수정안을 채택한 후 새로운 인공지능 법을 승인하기로 투표했다. 이 법은 ChatGPT와 같은 생성형 인공지능 시스템이 “사람의 잠재의식을 자극하는 기술을 배포”하거나 “나이, 신체적 또는 정신적 장애로 인한 특정 그룹의 취약성을 악용”하는 시스템을 사용하지 않고 “건강, 안전, 기본권, 환경, 민주주의 및 법치에 대한 예측 가능한 위험”을 피하고 여러 가지 안전장치와 공개 의무를 이행하도록 요구하고 있다. 아울러 여러 정부에서는 AI 학습을 위한 정보를 더 쉽게 수집하고 사용할 수 있도록 저작권법에 대한 특별 예외 조항을 만들었다. 이를 통해 일부 인공지능 시스템은 다른 사람이 소유한 온라인 텍스트, 이미지 및 기타 저작물을 학습할 수 있게 됐다.

그러나 이런 예외 조항은 저작권 소유자와 비평가를 중심으로 AI 서비스 발전 속도를 늦추려는 반대에 부딪혔다. AI 기술이 “편견, 조작, 소득 및 고용 손실, 허위 정보, 사기, 인류의 종말에 가까운 재앙적 예측을 포함한 기타 위험”과 관련된 보고가 폭발적으로 증가하면서 이러한 논란은 더욱 커지고 있다.

그에 더해서 전 세계적으로 인공지능 시스템을 학습시키는 데 사용되는 데이터에 저작자의 동의가 필요한지 아닌지는 저작물 사용에 대한 귀속과 보상을 원하는 저작자에게 시급한 문제로 떠오르고 있다. 최근 미국 저작권 청문회에서는 AI 학습 데이터에 “승인(Consent), 공로(Credit), 보상(Compensation)”이 적용되어야 한다는 의견이 나왔다.

제도 기반 구축에 힘쓰는 국가들, 중국과 인도 입장은 불분명 

학습 데이터와 관련된 지적 재산에 대한 국가별 접근 방식은 다양하고 계속 발전 중이다. 미국은 여러 소송을 진행하면서 저작권 예외 조항의 공정한 적용 범위를 결정하고 있다. 유럽연합(EU)의 2019년 디지털 단일시장에서의 저작권에 관한 지침으로 연구 및 문화유산 기관에 대한 의무적 예외를 포함한 텍스트 및 데이터 마이닝 예외 조항이 반영되었고, 저작권 소유자는 자신의 저작물이 상업적 서비스에 사용되는 것을 막을 수 있는 권리를 갖게 되었다. 2022년에 영국은 상업적 사용에 적용되는 광범위한 예외를 제안했지만, 올해 초 보류되었다. 2021년 싱가포르는 저작권법에 텍스트 및 데이터 마이닝, 데이터 분석, 기계 학습에 적용되는 예외 조항을 신설했다. 싱가포르의 예외 조항은 데이터에 대한 합법적인 접근 절차를 요구하며 이는 계약으로 무효화 할 수 없다.

위 나라들과 달리 중국은 IP를 침해하는 콘텐츠를 학습 데이터에서 제외하겠다는 성명을 발표했다. 스탠퍼드 대학교의 DigiChina 4월 기사에서 조지타운 대학교의 보안 및 신흥 기술센터의 헬렌 토너는 “중국의 규제는 다소 불투명하다. 왜냐하면 광범위한 온라인 소스에서 대규모로 스크랩되는 데이터의 저작권 상태가 이미 불분명한 상태이기 때문입니다”라고 설명했다. 한편 많은 국가에서는 데이터 마이닝에 대해 특별한 예외를 두지 않았고, 아직 입장을 정하지 못했다. 인도 당국은 현재로서는 AI를 규제할 준비가 되어 있지 않다고 밝혔지만, 다른 많은 국가와 마찬가지로 인도도 국내 산업에는 적극적으로 지원할 계획이라고 밝혔다.

[해외 DS] AI 학습 데이터, 스마트한 IP 법이 필요하다 (2)로 이어집니다.


Once a backwater filled with speculation, artificial intelligence is now a burning, “hair on fire” conflagration of both hopes and fears about the revolutionary technological transformation. A profound uncertainty surrounds these intelligent systems—which already surpass human capabilities in some domains—and their regulation. Making the right choices for how to protect or control the technology is the only way that hopes about the benefits of AI—for science, medicine and better lives overall—will win out over persistent apocalyptic fears.

Public introduction of AI chatbots such as OpenAI’s ChatGPT over the past year has led to outsize warnings. They range from one given by Senate Majority Leader Chuck Schumer of New York State, who said AI will “usher in dramatic changes to the workplace, the classroom, our living rooms—to virtually every corner of life,” to another asserted by Russian president Vladimir Putin, who said, “Whoever becomes the leader in this sphere will become the ruler of the world.” Such fears also include warnings of dire consequences of unconstrained AI from industry leaders.

Legislative efforts to address these issues have already begun. On June 14 the European Parliament voted to approve a new Artificial Intelligence Act, after adopting 771 amendments to a 69-page proposal by the European Commission,. The act requires “generative” AI systems like ChatGPT to implement a number of safeguards and disclosures, such as on the use of a system that “deploys subliminal techniques beyond a person’s consciousness” or “exploits and of the vulnerabilities of a specific group of persons due to their age, physical or mental disability,” as well as to avoid “foreseeable risks to health, safety, fundamental rights, the environment and democracy and the rule of law.”

A pressing question worldwide is whether the data used to train AI systems requires consent from authors or performers, who are also seeking attribution and compensation for the use of their works.

Several governments have created special text and data mining exceptions to copyright law to make it easier to collect and use information for training AI. These allow some systems to train on online texts, images and other work that is owned by other people. These exceptions have been met with opposition recently, particularly from copyright owners and critics with more general objections who want to slow down or degrade the services. They add to the controversies raised by an explosion of reporting on AI risks in recent months related to the technology’s potential to pose threats of bias, social manipulation, losses of income and employment, disinformation, fraud and other risks, including catastrophic predictions about “the end of the human race.”

Recent U.S. copyright hearings echoed a common refrain from authors, artists and performers—that AI training data should be subject to the “three C’s” of consent, credit and compensation. Each C has its own practical challenges that run counter to the most favorable text and data mining exceptions embraced by some nations.

The national approaches to the intellectual property associated with training data are diverse and evolving. The U.S. is dealing with multiple lawsuits to determine to what extent the fair use exception to copyright applies. A 2019 European Union (E.U.) Directive on copyright in the digital single market included exceptions for text and data mining, including a mandatory exception for research and cultural heritage organizations, while giving copyright owners the right to prevent the use of their works for commercial services. In 2022 the U.K. proposed a broad exception that would apply to commercial uses, though it was then put on hold earlier this year. In 2021 Singapore created an exception in its copyright law for computational data analysis, which applies to text and data mining, data analytics and machine learning. Singapore’s exception requires lawful access to the data but cannot be overridden by contracts. China has issued statements suggesting it will exclude from training data “content infringing intellectual property rights.” In an April article from Stanford University’s DigiChina project, Helen Toner of Georgetown University’s Center for Security and Emerging Technology described this as “somewhat opaque, given that the copyright status of much of the data in question—typically scraped at massive scale from a wide range of online sources—is murky.” Many countries have no specific exception for text and data mining but have not yet staked out a position. Indian officials have indicated they are not prepared to regulate AI at this time, but like many other countries, India is keen to support a domestic industry.

Similar Posts