▲ⓒDALL·E

테크 기업들이 인공지능(AI) 모델을 개발하는 과정에서 언론사 콘텐츠를 적극적으로 학습하고 있다는 연구 결과가 발표됐다.

4월19일 미국 일간지 워싱턴포스트(WP)는 <챗GPT와 같은 AI를 똑똑하게 만드는 웹사이트의 비밀목록> (Inside the secret list of websites that make AI like ChatGPT sound smart)이란 제목의 기사를 보도했다. 기사에 따르면 워싱턴포스트가 AI 학습에 사용되는 거대 데이터 세트인 구글 ‘C4’의 1000만 개 이상 웹사이트를 분석한 결과, AI에 가장 많은 정보를 제공한 웹사이트 10개 중 5개가 언론사 사이트인 것으로 나타났다. 미국 뉴욕타임스가 4위에 올랐고, 미국 LA타임스가 6위, 영국 가디언이 7위, 미국 포브스가 8위, 미국 허프포스트가 9위를 기록했다.

30위 안으로 살펴도 절반 정도가 언론사 콘텐츠였다. 미국 워싱턴포스트는 11위에 올랐다. 이어 미국 비즈니스인사이더가 17위, 미국 시카고트리뷴 18위, 미국 디 애틀랜틱 20위, 카타르 알자지라 24위, 영국 일간지 텔레그래프 28위, 미국 공영방송 NPR 29위, 영국 데일리메일 30위 순이었다.

▲워싱턴포스트 화면 갈무리. AI가 학습에 활용한 웹사이트 10곳 중 5곳이 언론사다.

순위 공개에 앞서 워싱턴포스트는 “챗봇은 사람처럼 생각할 수 없다. 챗봇은 자신이 하는 말을 실제로 이해하지 못한다. 챗봇을 구동하는 AI가 인터넷에서 스크랩한 방대한 양의 텍스트를 수집했기 때문에 사람의 말을 모방할 수 있다”며 “이 텍스트는 AI가 구축되는 과정에서 세상에 대한 주요 정보 소스이며 사용자에게 반응하는 방식에 영향을 미친다”고 밝혔다.

이어 워싱턴포스트는 “기술 기업들이 AI에 어떤 데이터를 제공하는지 비밀에 부쳐왔다. 그래서 WP는 이러한 데이터 세트 중 하나를 분석해 AI 학습 데이터에 들어가는 독점적이고 개인적이며 종종 불쾌감을 주는 웹사이트 유형을 완전히 공개하기 시작했다”고 밝혔다. 챗GPT 개발사인 오픈AI는 어떤 데이터 세트를 사용하는지 공개하지 않고 있는 상황.

관련기사

  • 공모전에 쏟아진 AI 작품, ‘창작’인가 ‘반칙’인가
  • 한국일보, 콘텐츠제작시스템에 그림 그려주는 인공지능 심었다

앞서 1000만 명 이상의 유료 독자를 확보한 뉴욕타임스는 지난해 12월 오픈AI와 마이크로소프트를 상대로 저작권 침해소송을 제기했다. NYT는 소송을 제기하면서 “뉴욕타임스가 엄청난 비용을 들여 제작한 저널리즘 콘텐츠를 무료로 활용하면서 이에 대한 적절한 보상도 없이 대체 상품을 만들어내고 있다”고 비판했다.

1000만 개 학습 사이트 중 ‘뉴스 및 미디어’ 카테고리는 전체 카테고리에서 3위를 차지했다. 카테고리 1위는 ‘비즈니스 및 산업’, 2위는 ‘기술’이었다. 워싱턴포스트는 “전체 상위 10개 사이트 중 절반이 뉴스 매체였다. 아티스트 및 크리에이터와 마찬가지로 일부 언론사들은 기술 기업이 허가나 보상 없이 콘텐츠를 사용하는 것에 대해 비판했다”고 보도했다.

면책 조항: 이 글의 저작권은 원저작자에게 있습니다. 이 기사의 재게시 목적은 정보 전달에 있으며, 어떠한 투자 조언도 포함되지 않습니다. 만약 침해 행위가 있을 경우, 즉시 연락해 주시기 바랍니다. 수정 또는 삭제 조치를 취하겠습니다. 감사합니다.