From Wikimedia Commons

원문 보기: Listen to an AI voice actor try and flirt with you

최근 몇 년 사이 AI가 만들어내는 음성의 품질이 빠르게 향상됐지만, 여전히 AI 음성 합성은 인간 언어의 측면에서 부자연스럽다. AI 음성 스타트업인 소난틱Sonantic은 놀림이나 유혹과 같은 미묘함을 표현할 수 있는 합성 음성을 개발해냈다. 이 회사의 열쇠는 작은 숨결과 비웃음 같은 소리를 실제 음성으로 재현하기 위한 AI 훈련을 통해 비음성 사운드를 오디오에 통합시키는 것이라고 말한다. 이 비디오에서 회사가 AI 기술을 사용해 시도한 것을 들을 수 있다. 영상 초반에는 실제 사람의 목소리와 거의 구별이 안 된다고 생각했지만, 특정 단어 사이에 남겨진 묘한 공간과 발음의 합성 구김살로 순식간에 그것을 로봇으로 인식했다고 말했다.

소난틱의 CEO는 이 회사의 소프트웨어를 “음성용 포토샵”이라고 묘사한다. 인터페이스를 통해 사용자는 합성하고 싶은 말을 타이핑하고, 전달의 분위기를 지정한 다음 대부분의 실제 인간 배우가 복사한 AI 음성 캐스트를 선택한다. 전달을 위한 감정적 선택에는 분노, 두려움, 슬픔, 행복, 기쁨이 포함되며 들뜸, 수줍음, 놀림, 자랑 등이 추가로 업데이트되었다. “디렉터 모드”를 사용하면 목소리의 높낮이와 전달 강도를 조정할 수 있으며 웃음과 숨소리와 같은 작은 비음성 발성을 삽입할 수도 있다.

소난틱의 기술에 대한 대표적인 샘플을 얻기 위해, 몇 가지 다른 분위기를 사용하여 동일한 라인을 렌더링해 달라고 요청했고, 결과로 나온 클립은 데모보다 훨씬 거칠었다. 이는 몇 가지를 시사한다. 첫째, AI 음성을 최대한 활용하려면 수동 연마가 필요하다. 이는 완전히 자동화되고 설득력 있는 AI 음성 합성이 아직 멀었다는 것을 의미한다. 둘째, 프라이밍이라는 심리학적 개념이 당신의 감각을 속이는 데 많은 도움이 될 수 있음을 보여준다. 실제 인간 배우가 카메라를 향해 불안할 정도로 친밀한 모습을 담은 비디오 데모는 듣는 이의 뇌가 함께 나오는 목소리를 실제처럼 듣도록 신호를 보낼 수 있다. 그렇다면 최고의 합성 미디어는 실제 출력과 가짜 출력을 결합한 것일지도 모른다.

번역&요약: 변현주

 

이 기사를 보니 최근에 영상 편집할 때 사용했던 클로바 더빙이 떠올랐다. 직접 더빙하지 않고 AI 음성을 사용하면 편리하고 시간도 절약됐지만, 중간마다 음성의 어색한 부분들이 있었다. 이번 기사에 링크된 동영상에서 소난틱이 개발한 AI 음성 합성 기술을 듣고 매우 놀랐다. 영상의 AI 음성은 목소리의 높낮이 조절은 물론이고 작은 숨소리, 웃음소리 등을 구현해냈다. 목소리에서는 따뜻함과 애절함 등이 느껴졌다. 이런 AI 음성 합성 기술이 더욱 발전한다면 영화나 광고, 애니메이션 등에서 쓰여도 전혀 어색하지 않을 것 같다. 전에 좋아했던 애니메이션에서 등장하는 도라에몽은 특이한 목소리가 인상적이지만 그만큼 목에 많은 무리가 간다. 이러한 이유로 도라에몽 역을 맡은 성우는 오랫동안 활동하지 못하고 하차하는데, 이럴 때 AI 음성을 함께 사용한다면 목이 크게 상하지 않으면서 오래 활동하실 수 있을 것이다.

어릴 때 처음 들었던 삼성 s보이스 목소리는 정말 너무 어색하였었는데 이제는 기술이 많이 발전해서 전보다 훨씬 자연스러운 어투로 들을 수 있다. 하지만 말할 때의 호흡이나 끊어지는 부분 등은 아직 어색한 부분이 많은 것이 사실이다. 이 기사에서 나온 AI 음성 합성 기술은 웃음소리, 숨소리나 감정이 드러나는 목소리를 구현해낼 수 있다는 점에서 신기했다. 앞으로는 말할 때에 있어서 감정이나 소리뿐만 아니라 끊어 읽는 부분, 호흡이 더 자연스러운 기술이 나온다면 더 주목받을 수 있지 않을까 하는 생각이 든다.

인공지능 음성이 확실히 예전에 비해 많은 자연스러워지고 유연해졌지만 아직까지는 딱딱하고 부자연스러운 면이 많다. 인공지능이니까 그럴 수 있다고 충분히 이해는 하지만 기계적인 어조를 들으면 어색하고 불편하다. 이 AI 음성 스타트업인 소난틱은 이러한 문제들을 해결하는데 도움을 줄 수 있을 것 같다. 앞으로 인공지능의 목소리가 좀 더 다채롭고 다양해지면 좋겠다. 듣기 편해지면 사람들도 인공지능 서비스를 더 많이 이용할 것 같다. 언젠가 인공지능이 사람의 감정을 유사하고 세세하게 모사하면 성우나 아나운서 같은 직업을 완전히 대체할 수 있을지도 모르겠다.

인공지능 음성이 어색한 이유들 중에 하나는 끊어 읽기의 문제와 호흡을 이상한 단어에 주는 것이라고 생각한다. 입력할 때 띄어쓰기를 하지 않으면 호흡을 한 번도 끊지 않고 읽는 경우와 앞 글자에 호흡을 넣어서 읽어야 하는데 중간에서 호흡을 주는 경우에 우리는 인공지능의 음성이 부자연스럽다고 느끼는 것 같다. 따라서 인공지능의 음성을 개선하기 위해서는 사람들이 실생활에서 어떻게 끊어 읽고 호흡을 주는지 훈련시킬 필요가 있을 것 같다.

음성 학습이 무엇인지 더 자세히 알고 싶어서 찾아보니 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이라고 한다.

이 기사를 읽다 보니 저번 퀸텟 프로젝트로 진행했던 영상 만들기가 생각났다. ‘네이버 클로버 더빙’을 사용하여 동영상에 직접 더빙을 입혔었는데, 인공지능의 목소리가 목소리만 다양할 뿐 너무 기계적이고 사실적인 느낌이 너무 적다고 생각했었다. 또한, 대화를 할 때 높낮이나 말투도 다양하지 않아서 두 명 이상의 더빙을 사용하면 실제로 대화한다는 느낌이 들지 않았다. 앞으로의 음성 학습은 더 발달해서 사람의 다양한 사투리나 감정을 드러내거나, 전달하고자 하는 말의 의미에 따라 세기, 높낮이 등을 모두 나타낼 수 있게 해서 생동적으로 표현할 수 있게 되면 좋겠다.


음성용 포토샵이라니. 영상보고 진짜 자연스러워서 놀랐네요. 단지 감정에 관한 몇 가지 조건을 제시했을 뿐인데… 화면을 보고 인공지능이란 생각을 전혀 못했어요. 약간의 망설임 같은 시간 조절, 억양, 문장 끊김 등이 너무 자연스러워서 진짜 감탄이 나옵니다. 클로바더빙이랑 살짝 비교되는 영상을 보며 `음성 포토샵`에 감탄해 봅니다^^


현주양이 링크 시켜 준 기사의 동영상을 봤네요. 오래전부터 사용했던 클로바더빙과 비교해 보자면, 음의 높낮이가 크고 웃음소리가 리얼하네요. 클로바더빙에서는 아무리 웃음소리, 감탄소리를 내려 해도 글자대로만 읽혀 포기했던 기억이 나네요. 딥페이크처럼 이 또한 조만간 자연스러워질 것이라 기대됩니다.


지난 2년간 코로나로 인해 학생들이 온라인수업을 듣는데 초등학생 경우는 교육청 온라인 영상이 목소리가 남자, 여자 각각 한가지 목소리여서, 학생들이 하루 종일 한가지 기계 목소리를 듣느라 힘들어했던 기억이 떠오르네요, 음성포토샵이 필요한 이유 중의 하나라는 생각도 듭니다, 인공지능이 다양한 분야에서 활용되고 있으니 이러한 기능에 대한 요구가 많을 것 같습니다.


와우~ 이게 AI음성이라구요? 기계적인 인위적인 목소리로 전혀 들리지 않네요.  앞에 교육관련 기사 읽으면서 진짜 사람 교사는 없어지고 로봇교사가 생길 거 같다는 생각을 해봤는데, AI음성까지 자연스러워지면 진짜 사람같은 교사 로봇이 인기 짱이겠어요~ ㅠㅠ   그 전에 퇴임을~~

인쇄하기

이전
다음
4+

소요 사이트를 방문해주셔서 고맙습니다. 액수에 관계없이 여러분의 관심과 후원이 소요 사이트를 유지하는 데 큰 힘이 됩니다. 후원금은 협동조합 소요 국민은행 037601-04-047794 계좌(아래 페이팔을 통한 신용카드결제로도 가능)로 후원하실 수 있습니다.