
JTBC 프로그램 히든싱어는 실제 가수와 그 가수를 모창 하는 5명의 참가자들 사이에서 진짜 가수를 찾는 내용이다. 어디 목소리만 진짜 가수와 비슷할까. 목소리뿐만 아니라 호흡, 떨림 심지어 노래를 부를 때의 감정까지도 꼭 닮아 많은 사람들을 혼란에 빠뜨렸다.
가수나 배우 등 유명인은 사람들이 모방할 수 있다 치자. 내 목소리도 모방의 대상이 된다면 어떨까. 그것도 사람이 아니라 로봇에 의해서 말이다. 오늘 기지과인의 주인공은 사람의 목소리를 따라 하고 그 목소리로 노래까지 소화하는 인공지능 샤오츠(小驰)이다.
샤오츠는 한 사람의 목소리가 담긴 오디오파일을 듣고 모듈화 하여 데이터를 추출한 뒤 상황을 설정하면 그에 맞게 출력해준다. 샤오츠 개발자 위카이(俞凯)의 목표는 샤오츠의 모창과 성대모사가 단순 흉내를 내는 것에 있지 않다. 말하는 사람의 본래 습관과 특징은 물론 각 상황 속 사람의 감정에 따라 달라지는 목소리까지 분석하여 완벽한 복제(?)를 꿈꾸고 있다.
샤오츠의 대결 상대로는 갈우(葛优), 등려군(邓丽君), 주성치(周星驰),저우비창(周笔畅), 한홍(韩红)을 성대모사 및 모창 하는 달인들이다. 대결 방식은 다음과 같다. 샤오츠가 이들 달인 중 한 명을 대신하여 블라인드 뒤에서 다른 달인들과 노래를 부른다. 투표 기준은 모창을 가장 잘하는 사람이 아닌 인공지능, 즉 샤오츠를 찾는 것으로 득표수가 가장 많은 사람이 탈락한다.
본격 대결에 앞서 샤오츠는 패널 싸베이닝이 과거에 진행했던 뉴스 영상 속에서 데이터를 추출하여 싸베이닝의 목소리로 “<호구불견>(好久不见)” 이라는 노래를 들려주었다. 흥미로운 점은 싸베이닝 본인이 이 노래를 직접 부른 적이 없다는 것이다. 감정이 절제된 뉴스 진행 영상으로 학습하다 보니 노래의 감정을 잘 표현하지 못했지만 소리는 싸베이닝의 실제 목소리와 매우 비슷했다.
샤오츠의 싸베이닝 목소리 모창 듣기
분골쇄신(粉骨碎身)
우리는 보통 성대모사와 모창의 달인들이 하루도 거르지 않고 피나는 연습을 했을 것이라고 알고 있다. 이와 다르게 인공지능이 단시간에 모방을 쉽게 해낸다면 너무 불공평한 것이 아닐까?

첫 번째 대결방식은 각 도전자들에게 패널들이 서로 다른 노래를 골라주고 도전자들은 이에 맞춰 노래를 부르는 것이다. 어떤 것이 샤오츠의 소리일까? 패널들의 평가가 서로 엇갈리는 가운데 3번 배우 갈우의 목소리가 18표로 최고 득표를 받았다. 예상과 달리 3번은 사람 달인이었고 샤오츠는 다음 라운드로 진출했다.
두 번째 대결은 각자 다른 곡이 아닌 한 곡을 돌림노래의 방식으로 진행하였다. 타이밍을 맞추어 노래를 이어 불러야 하고 다른 사람과 호흡을 맞춰야 한다는 점에서 샤오츠에게는 난이도가 높아졌다. 더군다나 대결 곡은 청소년 아이돌 그룹 TFBOYS의 “<청춘수련수책>(青春修炼手册)”으로 빠른 리듬의 노래였다.
사람 도전자들의 뼈와 살을 깎는 노력이 빛을 발했을까? 아니면 샤오츠의 천재성 앞에 무릎을 꿇었을까? 투표 결과 1번 주성치의 소리가 29표로 압도적인 표를 받았으며 모창한 주인공은 바로 샤오츠였다. 결국 샤오츠는 “기계는 사람보다 못하다(技不如人)”로 미션을 통과하지 못했다.
어목혼주(魚目混珠)
샤오츠는 특정 사람의 목소리를 모방해서 재현하는 것일까 아니면 창조하는 것일까? 보통 사람들은 목소리 톤이나 말투를 통해 그 사람의 감정을 분위기상 감지하게 된다. 반면 인공지능은 감정에 따라 변화되는 목소리의 주파수, 진동폭 등을 과학적으로 분석한다. 다만 인공지능이 파악하는 사람의 감정은 개개인의 서로 다른 특성을 고려한 것이 아니다. 많은 사람들이 각종 상황에 보이는 목소리 특징을 참고하여 일반화한 감정일 뿐이다.
위카이는 샤오츠를 통해 목소리 데이터만 있다면 나의 화난 목소리를 듣지 않더라도 화가 난 다른 사람들의 목소리를 분석한 결과를 적용하여 마치 화가 난 것처럼 목소리를 만들어낼 수 있다고 한다. 즉, 화남, 슬픔, 놀람 각 상황에 따른 개인의 목소리 데이터가 필요 없다는 것이다.
이렇게 보면 인공지능이 내 목소리를 재현한 것이 아니라 창조한 것에 가깝지 않을까. 샤오츠가 내보인 <오랜만이야>는 확실히 싸베이닝의 목소리였고 나름 노래에 담긴 사랑의 애틋함과 이별의 아픔까지도 표현하려 했다. 하지만 싸베이닝은 그런 감정을 느끼며 노래를 직접 불러본 적이 없다. 그렇다면 샤오츠는 누구의 감정에 싸베이닝의 목소리를 덮어씌운 것일까.
음성 복제 인공지능은 사고로 목소리를 잃은 사람들의 과거 목소리를 복원하여 마치 그들과 진짜 대화하는 듯 한 느낌을 만들 수 있다. 또한 부모님의 목소리를 복제해 잠자기 전 아이들에게 책을 읽어줄 수도 있다. 하지만 이전 내 진짜 목소리를 “되찾았다”라고 말할 수 있을지, 아이들에게 부모의 온화한 “사랑”을 고스란히 전달할 수 있을지는 의문이다. 목소리에 담긴 감정이 온전히 본인의 실제 감정이 아닐 수 있기 때문이다. 인공지능의 어설픈 모방과 창조해낸 가짜 감정에 너무 익숙해지면 나중에 인공지능이 만든 목소리와 실제 내 목소리 중 진짜를 판단할 능력조차 사라지게 되지 않을까.
소요 사이트를 방문해주셔서 고맙습니다. 액수에 관계없이 여러분의 관심과 후원이 소요 사이트를 유지하는 데 큰 힘이 됩니다. 후원금은 협동조합 소요 국민은행 037601-04-047794 계좌(아래 페이팔을 통한 신용카드결제로도 가능)로 후원하실 수 있습니다.