생체인증이란 개인마다 다른 독특한 생체 정보를 비밀번호처럼 사용해 타인의 도용이나 복제에 이용할 수 없도록 하는 것이다. 그 대표적인 예로 지문 인식을 들 수 있는데, 이미 우리 삶 속에서 널리 사용되고 있다. 휴대폰 잠금 화면부터 중요한 서류가 들어있는 금고를 여는 데까지 말이다.

그렇다면 최근 화제가 되고 있는 ‘성문인식’은 무엇일까? 성문인식이란 사람 목소리의 특수성과 고유성에 근거하여 말하는 사람의 목소리를 식별하는 것이다. 칭화대학교 박사 치엔이엔민(钱彦旻)이 개발한 성문인식 인공지능 ‘샤오스(小思)’는 여러 사람이 대화를 나누는 혼잡한 상황에서도 음성 인식이 가능하다. 더 이상 조용한 환경과 또박또박한 발음을 고집할 필요가 없어졌다.

성문은 샤오스 로봇의 알고리즘에 의해 추출된 보이스 프린트로 서로 다른 사람이 같은 내용의 문장을 말하더라도, 각 성문의 차이는 아주 명확하다. 그래서 여러 사람이 섞여있는 가운데서도 식별이 가능한데 이를 흔히 ‘칵테일파티’에 비유하여 설명한다. 칵테일파티에서는 많은 사람들이 동시에 이야기를 하고 그 주변에 또 수많은 배경 소리도 존재한다. 이와 같이 시끄러운 환경에서도 샤오스는 특정 인물의 목소리를 인식해낼 수 있다.

경이이청(倾耳而听)

이번 대결은 바로 경극 배우의 목소리를 듣고 누구의 목소리인지 맞히는 것이다. 경극 배우들의 “잉~ 엥~”거리는 특유의 창법을 들어본 적이 있을 것이다. 대체로 하이톤에 쨍쨍한 소리로 어떤 배우가 불러도 비슷하게 들리기 때문에 개개인의 차이를 확인하기 까다롭다.

샤오스와 대결을 펼칠 상대는 2014년에 데뷔해 작곡부터 노래, 피아노, 중국 전통극까지 모두 섭렵한 훠준(霍尊)이라는 가수다. 그는 소리 기억 능력이 뛰어나고 음성 식별 능력과 감각 능력이 탁월하다고 알려져 있다. 대결에 앞서 목소리 캐치를 위해 11명의 어린이 경극 배우들이 한 명씩 <목계영괘수>의 동일한 구절을 불렀다.

첫 번째 대결 방식은 다음과 같다. 11명의 배우가 합창하는데 그중에서 패널들이 임의로 선택한 한 명의 마이크만 켜놓는다. 성문을 인식해서 판단하는 샤오스에 반해 훠준은 11명의 목소리를 전부 기억해야 된다는 점에서 난색을 드러냈다. 또한 배우들이 동일한 창법을 구사하며 적잖은 혼동을 주었다. 그럼에도 불구하고 샤오스와 훠준은 둘 다 정답(2번)을 맞히고 다음 라운드로 진출했다.

두 번째 대결은 패널들이 선택한 세 명의 배우가 함께 합창했고(나머지 8명은 마이크를 꺼놓음) 반주도 더해져 난도가 높아졌다. 우리도 세 배우의 합창을 한 번 들어보자.

(2라운드 음원파일 : 45초)

세 명의 목소리가 구분되는가? 아마 우리 귀에는 복잡하게 들려 어느 한 명의 목소리 특징을 유추해내기 힘들었을 것이다. 훠준 역시 한 명밖에 맞히지 못했고 샤오스는 두 명을 맞혀 인공지능이 사람을 뛰어넘었다(机智过人)는 타이틀을 얻게 된다.

안실이처(安室利处)

우리는 샤오스가 우리에게 어떤 도움을 혹은 편리함을 줄 수 있을지 생각해보았다. 시끄러운 클럽에서 웨이터를 부를 때 내 목소리를 듣고 올 수 있는 것? 보이스피싱이나 납치 범죄에서 내 가족의 목소리 변조를 알아차릴 수 있는 것? 결제를 할 때 지문인식, 홍채인식을 비롯하여 음성인식을 통한 보안 강화? 상술한 내용이 뻔하고 시시하다면 다음의 짧은 이야기를 살펴보자.

최근 스타트업을 설립한 종화는 24시간이 모자를 정도로 바쁘다. 이번 7월만 해도 다른 회사와의 미팅이 150건이 넘는다. 회사 업무 이외에 다른 것들을 신경 쓸 여유가 없다. 그나마 기술의 발전으로 로봇이 가사를 도맡아 하고 아이들에게 책을 읽어주니 다행이다. 하지만 종화는 여전히 귀찮다. 로봇이 동화책이나 청소도구 등을 구매할 때마다 자신이 직접 그 사이트에 접속해 결제 확인을 해야 한다. 온라인 구입은 차라리 낫다. 로봇이 오프라인에서 일을 처리할 때가 더 문제다. 분명 종화의 소유이고 종화 본인이 명령을 내린 로봇이지만 다른 사람 혹은 로봇이 종화의 로봇을 쉽게 믿지 못하기 때문이다. 특히 물품 결제를 할 때나 파트너 회사에 서류를 전달할 때의 신분확인 과정이 오래 걸린다. 로봇이 종화의 안면이나 지문을 가지고 다닐 수 없기 때문에 실제 사람처럼 센서를 통해 바로 확인이 불가능하다. 이때 종화는 자신의 목소리를 저장해서 이를 신분확인용으로 사용하면 어떨까 생각했다. 거기다 단순히 목소리를 모방하는 것이 아니라 진짜 내 목소리를 담아낸다면 더욱 안전할 것이다.

알리바바의 티엔마오징링(天猫精灵), 징둥의 딩동인샹(叮咚音箱), 샤오미의 샤오미AI인샹(小米AI音箱)등의 중국 회사들이 개발하는 AI 스피커 결제 시스템에는 내 목소리가 나를 대변할 수 있다는 전제가 깔려있다. 상상해보자. 미래에 사람과 비슷하게 생긴 여러 로봇들이 내 목소리를 내며 각종 작업을 처리하면 어떤 기분이 들까. 이 로봇들은 내 명령을 수행하는 비서인가? 아니면 또 다른 나, 즉 나의 분신인가?

 

인쇄하기

이전
다음
1+

소요 사이트를 방문해주셔서 고맙습니다. 액수에 관계없이 여러분의 관심과 후원이 소요 사이트를 유지하는 데 큰 힘이 됩니다. 후원금은 협동조합 소요 국민은행 037601-04-047794 계좌(아래 페이팔을 통한 신용카드결제로도 가능)로 후원하실 수 있습니다.