
미국에서 한 가지 기묘한 장면이 펼쳐지고 있습니다. 지난달 유에스에이 투데이는 이민세관단속국(ICE)이 트럼프 행정부 아래 구금 통계를 어떻게 지연 공개했는지 추적한 기획 기사를 내보냈습니다. 기자들이 이 보도를 가능케 한 도구는 인터넷 아카이브(Internet Archive)의 웨이백 머신(Wayback Machine)이었습니다. 사라지거나 수정된 정부 페이지의 옛 모습을 시간 단위로 보존해 온 비영리 디지털 도서관입니다. 그런데 정작유에스에이 투데이 본사는 자사 기사가 그 웨이백 머신에 보존되는 것을 차단하고 있습니다. 보도를 위해 남의 기록은 활용하면서, 자신의 기록은 남기지 않겠다는 것입니다.
유에스에이 투데이 한 곳의 문제가 아닙니다. 뉴욕 타임스는 2025년 말 인터넷 아카이브의 크롤러를 ‘하드 블록’으로 전면 차단했습니다. 가디언은 자사 기사 페이지를 웨이백 머신의 검색 인터페이스에서 제외했습니다. 레딧 또한 차단에 합류했습니다. 분석 결과에 따르면 9개국 241개 주요 뉴스 사이트가 인터넷 아카이브의 크롤러를 명시적으로 거부하고 있으며, 그 중 유에스에이 투데이 모회사인 개닛(Gannett) 한 곳이 거느린 지역지 수백 곳이 함께 사라지는 중입니다.
명분은 인공지능입니다. 언론사들은 AI 기업이 학습 데이터로 활용하기 위해 인터넷 아카이브를 ‘뒷문’으로 삼는다고 주장합니다. 뉴욕 타임스 측의 표현에 따르면, 자사 콘텐츠가 저작권법을 우회하여 AI 기업의 경쟁 도구로 쓰이고 있다는 것입니다. 개닛 CEO는 2025년 9월 한 달에만 7,500만 건의 AI 봇 접근을 차단했다고 밝혔습니다.
그러나 이 명분에는 결정적인 비대칭이 있습니다. 차단의 대상이 된 인터넷 아카이브가 어떤 곳인지 잠시 짚어둘 필요가 있습니다. 1996년 비영리로 설립된 이 기관은 30년에 걸쳐 1조 페이지의 웹을 보존했습니다. 2025년 10월 1조 페이지 돌파를 발표한 직후에도 매일 150테라바이트씩 자료가 늘어, 누적 저장량은 약 100페타바이트에 이릅니다. 비교가 가능한 척도로 옮기자면, 미국 의회도서관이 디지털화한 텍스트 전체가 28테라바이트가량입니다. 인터넷 아카이브 한 곳이 보유한 데이터는 의회도서관 텍스트 자료의 3,500배가 넘는 셈입니다. 웨이백 머신의 1조 페이지 외에도 책 4,250만 점, 영상 1,300만 편, TV 뉴스 300만 건, 음원 1,400만 점이 함께 보존되고 있습니다. 이는 단순한 백업이 아니라, 디지털 시대 인류가 공동으로 만들어 온 사실상 가장 큰 도서관입니다.
AI 학습 데이터로 사용되는 일이 우려라면, 그 우려를 해결할 대상은 AI 기업이지 도서관이 아닙니다. 인터넷 아카이브는 대량 다운로드 차단, 속도 제한, 봇 통제 같은 자체 방어 장치를 이미 가동하고 있습니다. 그럼에도 언론사들은 AI를 막겠다며 도서관 자체를 폐쇄하는 길을 택했습니다. 컴퓨터 과학자 마이클 넬슨이 표현한 대로, 인터넷 아카이브는 “선의의 부수적 피해(collateral damage)”가 된 것입니다.
문제는 이 부수적 피해가 사회 전체의 기억을 갉아먹는다는 점입니다. 디지털 시대의 기록은 대단히 취약합니다. 신문은 폐간되고, 웹페이지는 사라지고, 기사 내용은 발행 후에도 조용히 수정됩니다. 2016년 뉴욕 타임스가 당시 대선 후보 버니 샌더스에 관한 기사를 사후에 편집한 사실이 드러난 것도 웨이백 머신 덕분이었습니다. 미국 법원은 웨이백 머신에 보존된 페이지를 증거로 인용해 왔고, 위키백과는 249개 언어 260만 건 이상의 출처 링크를 인터넷 아카이브에 의존합니다. 언론사가 자기 기사의 사후 수정 흔적을 지울 수 있게 되는 순간, 책임 저널리즘과 사법 절차와 학술 연구가 동시에 흔들립니다.
저작권을 지키겠다는 언론의 의지를 폄하할 수는 없습니다. 그러나 자사 기사의 사후 수정 이력을 추적할 수 없게 만드는 것이, 과연 저작권 보호의 본래 목적입니까. AI 시대에 해결해야 할 진짜 문제는 학습 데이터의 정당한 라이선스 구조이지, 도서관의 폐쇄가 아닙니다. 인터넷 아카이브의 설립자 브루스터 케일은 “출판사들이 도서관을 제한한다면, 대중은 역사적 기록에 더 적게 접근하게 될 것”이라고 경고했습니다.
기록되지 않은 것은 곧 일어나지 않은 것이 됩니다. 우리는 지금 그렇게, 어제를 잃어가고 있는 중인지도 모릅니다.












댓글을 남겨주세요
댓글을 남기려면 로그인 해야 합니다.