이번 주는 내내 인공지능 관련 새로운 소식들이 쏟아지고 있습니다. 10월 5일, 구글은 텍스트 프롬프트에서 초당 24프레임 HD화질(1280X768픽셀)의 동영상을 만들어 주는 텍스트-비디오 생성기 이마젠 비디오를 공개했습니다. 구글은 상대적으로 늦게 텍스트-이미지 생성기인 이마젠을 발표한 지 불과 5개월 만에 비디오 생성기를 선보임으로써 회사의 기술력과 시장에서의 리더십을 확고히 다졌습니다.

구글의 연구 보고서에 따르면 이마젠 비디오에는 유명한 화가의 작품(예: 빈센트 반 고흐의 그림)을 기반으로 한 비디오 생성, 2D 사진을 기반으로 한 3D 회전 개체 생성, 다양한 애니메이션 스타일등이 있어 앞으로 고품질 콘텐츠 생성에 들어가는 시간과 비용을 크게 줄일 수 있을 것으로 기대됩니다.

이마젠 비디오는 텍스트 프롬프트(예: “설거지를 하는 곰”)를 입력 받으면, 먼저 저화질(16프레임, 24X24픽셀) 비디오를 만든 후, 7단계에 걸쳐 매 단계마다 더 많은 프레임 수와 더 높은 해상도로 높여가는 “캐스케이드”방식을 사용하고 있습니다. 최종적으로 출력되는 비디오의 길이는 5.3초 분량입니다.

이마젠 비디오 웹사이트에 소개된 영상에는 평범한 것(“녹는 아이스크림이 아래로 떨어지는 것”)에서 판타지(“폭풍우가 치는 바다에서 해적선 간의 격렬한 전투”)에 이르기까지 다양한 장르를 넘나들고 있습니다. 그리고 초기 버전을 감안하면 놀라울 정도의 디테일과 자연스러움을 보여줍니다.

구글 이마젠 비디오의 훈련 데이터는 공개적으로 사용 가능한 LAION-400M 이미지-텍스트 데이터 세트와 “1,400만 개의 비디오-텍스트 쌍 및 6,000만 개의 이미지-텍스트 쌍”에서 가져온 것입니다. 구글은 “문제가 있는 데이터”를 필터링하였지만 여전히 성적으로 노골적이고 폭력적인 콘텐츠는 물론 사회적 고정관념과 문화적 편견을 포함할 수 있으며, 이것이 “가짜, 증오, 노골적 또는 유해한 콘텐츠를 생성하는 데” 사용될 수 있다고 우려하고 있습니다.

그런 이유로 구글은 “이러한 우려가 완화될 때까지 이마젠 비디오 모델 혹은 그것의 소스 코드를 공개하지 않기로 결정했습니다 아쉽지만 우리가 직접 구글 이마젠 비디오를 경험하기 위해서는 조금 더 기다림의 시간이 필요하겠습니다. 그리고, 그 기다림이 그렇게 길지는 않을 것이라는 것도 우리는 알고 있습니다.

시간! 오늘의 흐름이 어제와 같지 않습니다.

인쇄하기

이전
다음
1+

소요 사이트를 방문해주셔서 고맙습니다. 액수에 관계없이 여러분의 관심과 후원이 소요 사이트를 유지하는 데 큰 힘이 됩니다. 후원금은 협동조합 소요 국민은행 037601-04-047794 계좌(아래 페이팔을 통한 신용카드결제로도 가능)로 후원하실 수 있습니다.