-AI 학습을 위한 데이터 사용. 저작권 침해의 목소리 이어져

유명 작가 마이클 셰이본, 데이비드 헨리 황, 코미디언 세라 실버먼 등도 오픈AI와 메타를 상대로 저작권 침해에 관한 소송을 제기했다. 또한 뉴욕타임스는 NYT의 기사들이 챗GPT 훈련에 무단으로 사용되었음을 주장하며 2023년 12월 챗GPT의 개발사 오픈AI와 마이크로소프트를 상대로 소송에 나선 바 있다. AI 이미지도 소송의 대상이 된 사례도 있다. ‘게티 이미지‘는 ‘스테빌리티 AI‘에 ‘게티 이미지’의 1,200만장을 무단으로 AI 학습에 활용하였다며...[본문 중에서]
유명 작가 마이클 셰이본, 데이비드 헨리 황, 코미디언 세라 실버먼 등도 오픈AI와 메타를 상대로 저작권 침해에 관한 소송을 제기했다. 또한 뉴욕타임스는 NYT의 기사들이 챗GPT 훈련에 무단으로 사용되었음을 주장하며 2023년 12월 챗GPT의 개발사 오픈AI와 마이크로소프트를 상대로 소송에 나선 바 있다. AI 이미지도 소송의 대상이 된 사례도 있다. ‘게티 이미지‘는 ‘스테빌리티 AI‘에 ‘게티 이미지’의 1,200만장을 무단으로 AI 학습에 활용하였다며...[본문 중에서]

: 엔비디아의 생성형 AI 플랫폼 네모저작권 침해로 집단소송 제기


[뉴스워커_투데이 이슈] 현지 시각으로 10, 외신에 따르면 세 명의 작가로부터 엔비디아가 저작권 침해 혐의로 기소되었다. 집단 소송을 제기한 작가는 브라이언 킨, 압디 나제미안, 스튜어트 오난으로 이들은 엔비디아가 생성형 AI 플랫폼 네모를 학습시키는 과정에서 자신들의 작품을 도용했다고 주장했다. 네모는 개발자가 간편히 LLM(대형 언어 모델)과 생성형 AI를 구축하고 학습시킬 수 있도록 지원하는 생성형 AI 플랫폼으로 이를 사용하는 기업에서는 회사 자체 데이터를 활용하여 자체 AI 모델을 구축할 수 있는 특징이 있다.

엔비디아는 네모의 훈련을 위해 196640권의 책 데이터를 사용한 것으로 알려졌으며, 이번 소송을 제기한 세 명의 작가는 이 책 데이터 세트에 자신들의 작품이 포함되어 있다고 지적했다. 논란이 된 작품으로는 킨의 소설 고스트 워크’, 나제미안의 소설 라이크 어 러브 스토리’, 오난의 소설 랍스터의 마지막 밤등이다.

로이터 통신에 따르면, 문제가 된 책 데이터 세트는 지난 10월에 저작권 침해 신고가 접수된 후 데이터 세트에서 해당 작가들의 소설이 제외되었다. 결국 이는 해당 작가들의 책이 네모의 학습 데이터에 도용되었음을 인정하는 것이라 주장했다. 지금까지 엔비디아는 이번 소송과 관련하여 논평을 내놓지 않은 것으로 알려졌다.

한편, 엔비디아는 AI 열풍 이후 AI 업계에서 가장 주목받는 기업이라 할 수 있다. 2022년 말에 146달러였던 주가가 지난 8일에 875달러로 마감하면서 14개월 만에 600% 이상 급등하였으며, 시가총액은 22천억달러에 달할 정도이기에, 이번 저작권 침해 소송으로 인하여 타격을 받을지 귀추가 주목된다.


 : AI의 저작권 침해, 현재 논쟁이 되는 이유는 무엇일까


생성형 AI의 경우 사전에 여러 데이터를 미리 학습하는 게 중요하다. 이때, 이 데이터에는 저작권의 보호를 받는 작품이 포함될 수 있으므로 논쟁이 이어지는 것이다.

이에 대해 벤처캐피털 업계의 안드레센 호로비츠는 ”AI 기술 개발에 필수적인 대규모 데이터 활용에 대한 비용 부담 증가가 투자 가치를 저하시킬 수 있다.“기술을 개발하는 기업이 이를 작동시키는 저작권 데이터에 대한 비용을 지불해야 한다면 수십억 달러의 AI 투자 가치가 훨씬 낮아질 수 있다.“고 언급했다. , 학습용 데이터 사용에 경제적 부담이 높아진다면 이는 기술 개발 비용에 영향을 주어 경제적이지 못하다는 것이다. 이는 결론적으로는 궁극적인 AI 기술 발달에 부정적인 영향을 미친다고 할 수 있다.

한 편, 창작물에 대한 저작권자의 권리를 존중하고 그들에게 정당한 대가를 지급하는 방안 마련의 필요성을 주장하는 이들도 적지 않다. 20237, 미국 출판 작가들의 전문조직인 작가 조합(Authors Guild)AI 기업의 부당이익을 비판하며 정당한 대가를 요구하는 서안을 공개했다. 이들은 “AI 기술은 우리의 언어, 이야기, 스타일, 아이디어를 모방하고 되살려낸다.”“AI 시스템을 개발하는 데 사용되는 많은 책은 불법 복제된 것이며, 상업적 사용을 위한 AI의 데이터 학습은 공정 이용이라 할 수 없다고 주장했다. 이뿐만 아니라 AI가 학습한 데이터를 기본 뼈대로 하여 원작자의 허락 없이 2차 저작물을 생성한다면 결국 작가들의 생계에도 영향을 줄 수 있다는 우려의 목소리도 있다.

아마드 나제리 R스트리트인스티튜트 연구원은 한 매체를 통해 저작권 제도의 본 취지를 존중하면서도 AI의 가능성을 포용하는 중간 지점을 찾는 게 인간의 창의성과 AI의 창의성을 동시에 발휘하게 하는 키가 될 것이라고 밝혔다.


 : AI 저작권 분쟁은 한 기업만의 문제가 아니다


최근 AI 산업이 급속도로 성장함에 따라 AI를 고도화시키기 위한 여러 기업의 연구 및 개발이 이어졌고 AI를 학습시키기 위한 데이터가 중요해짐에 따라 AI 데이터와 관련된 분쟁도 나날이 증가하는 추세이다.

유명 작가 마이클 셰이본, 데이비드 헨리 황, 코미디언 세라 실버먼 등도 오픈AI와 메타를 상대로 저작권 침해에 관한 소송을 제기했다. 또한 뉴욕타임스는 NYT의 기사들이 챗GPT 훈련에 무단으로 사용되었음을 주장하며 202312월 챗GPT의 개발사 오픈AI와 마이크로소프트를 상대로 소송에 나선 바 있다. AI 이미지도 소송의 대상이 된 사례도 있다. ‘게티 이미지스테빌리티 AI‘게티 이미지1,200만장을 무단으로 AI 학습에 활용하였다며 손해배상을 청구하기도 하였다.

이처럼 현재 전 세계적으로 생성형 AI 기술의 발달에 따른 저작권 분쟁이 심화되고 있으며 창작자에 대한 저작권 보호에 대한 요청 및 관련 법안 마련의 필요성이 대두되고 있다.

현재 세계적으로 AI 산업의 발전을 위하여 이에 따른 AI 사용에 관한 적절한 법적 책임과 규제도 함께 논의하고 있다. EU는 세계에서 처음으로 AI 법을 제정하여 생성 AI가 만든 콘텐츠는 워터마크를 표시하여 AI 제작 콘텐츠임을 알리고, 데이터 출처 목록을 공개하라는 내용이 담겨있다. 미국에서는 생성 AI가 만든 작품에 대한 저작권 인정 기준을 밝히고 청문회가 열리는 등 논의가 이어지고 있다. 국내에서는 지난해 기획재정부에서 발표한 서비스산업의 디지털화 전략에는 저작권법 개정에 대한 내용이 언급되어 있는데, 온라인에 적법하게 공개된 정보나 데이터를 AI가 크롤링하여 학습에 이용하는 것은 저작권 침해로 보지 않는다는 내용이 포함되어 있다.

따라서 AI 학습데이터의 저작권 침해와 관련하여 정부, 국제사회, AI 개발자 및 사용자의 협력이 필수적이다. 법적 규제와 국제적 협력관계를 통해 생성형 AI의 발전을 도모하고 어느 곳에 치우쳐지지 않으면서 저작권을 보호할 수 있는 방안을 모색해야 할 것이다.

 

관련기사
저작권자 © 뉴스워커 무단전재 및 재배포 금지