[스탠포드 황승진 교수님 칼럼] 음성 AI의 진화, 인간의 말을 모방하는 기술의 비밀

실리콘밸리 AI 칼럼
11시간 전
조회수
14
스탠포드-대학교

AI는 이제 텍스트를 넘어, 사람의 음성을 인식하고 자연스럽게 대화할 수 있는 수준에 이르렀습니다. 

음성 인식 기술은 단순한 학습을 넘어서, 일상생활부터 비즈니스 현장까지 폭넓게 활용되고 있는데요.

과거에는 영화 속에서나 가능한 상상으로 여겨졌던, 인공지능와 대화를 나누고 사랑을 주고받는 장면조차 이제는 현실에서도 가능할 것처럼 느껴질 만큼 음성 AI 기술은 눈에 띄게 발전하고 있습니다.

그렇다면, AI는 어떻게 사람의 음성을 이해하고 자연스럽게 언어로 응답할 수 있을까요?

한국인 최초의 스탠포드 종신 교수이자, 현재 스탠포드 경영 대학원 명예교수로 활동 중인 황승진 교수님의 칼럼을 통해, AI가 사람의 음성을 데이터로 구조화하고 이를 통해 비즈니스와 일상을 어떻게 변화시키고 있는지 함께 살펴보겠습니다.

 

기계가 말하는 이상한 나라의 AI

음성-AI

인간의 ‘말’에는 ‘의미(semantic)’와 ‘발음(phonetic)’이 함께 담겨 있다. 의미는 텍스트로 변환될 수 있고, 발음은 음파 형태로 표현된다. LLM은 이 두 요소를 구분하여 각각 처리한다.

먼저 ‘의미’ 처리부터 보자. 글이나 이미지와 마찬가지로, 음성 인식도 임베딩과 트랜스포머 기반 기술을 통해 구현할 수 있다. 음성을 텍스트로 바꾸는 과정을 생각해보자. 

오디오 신호 역시 순차적으로 전달되지만, 글과는 달리 단어 사이에 구분이 없이 연이어 출력된다.

예를 들어 “I like an apple”이라는 문장은, 음성으로는 “Ilikeanapple”처럼 들린다. 

사람은 이 연속된 소리를 듣고 음소(phoneme), 음절(syllable), 단어(word) 단위로 나누어 문장을 구성한다. 

반면, 기계는 주파수와 진폭으로 이루어진 소리 신호만을 분석해 같은 결과를 도출해야 한다.

이를 위해 먼저 음성을 약 25ms 단위로 잘게 나눈 뒤, 각 조각의 아날로그 특성을 MFCC(Mel Frequency Cepstral Coefficient) 방식으로 벡터화한다.

이 벡터를 Whisper, Chirp, Wav2Vec과 같은 특화된 신경망에 입력하면, 말의 최소 단위인 ‘음소(phoneme)’를 추정할 수 있다. 이 음소는 토큰처럼 작동하며, 임베딩을 생성하게 된다.

생성된 임베딩은 트랜스포머를 통해 처리되고, 그 결과로 텍스트가 추출된다. 

일단 텍스트 세계로 넘어오면, 번역, 요약, 의문문 전환, 부정문 처리, 응답 생성 등 LLM이 잘하는 다양한 ‘의미 기반 작업’이 가능해진다.

AI는 ‘의미’뿐 아니라 ‘소리’ 자체도 다룰 수 있다. 사람의 목소리를 인식하고 생성할 수 있으며, 음색, 억양, 속도, 볼륨, 음질 등을 자연스럽게 변형할 수도 있다. 

이 기술을 음성 ‘클로닝’이라 부른다. 

예를 들어, “엄마, 나야”로 시작되는 전화가 피싱일 수도 있다. 단지 3초 분량의 음성 샘플만 있으면, 목소리를 거의 완벽하게 복제해낼 수 있기 때문이다.

미국 정부는 알 수 없는 발신자로부터 전화가 올 경우, 먼저 말을 하지 말라고 조언한다. 이는 사기범들이 목소리를 녹음해 악용할 수 있기 때문이다.

이처럼 AI는 ‘말’의 두 가지 속성인 ‘소리’와 ‘의미’를 각각 디지털화하며 사실상 완전히 다뤄낼 수 있게 되었다.

 

음성 기반 AI의 구조

음성 기반 AI 응용의 대표적인 구조는 다음과 같다: 음성-to-텍스트 → 텍스트-to-텍스트 → 텍스트-to-음성. 이 과정에서 특정 단계를 생략하거나, 음성-to-음성(통역)이 추가되기도 한다.

예를 들어, 외과의사 김 박사는 진료 중 대부분의 시간을 환자와의 상담에 할애한다. 약 50분간의 상담 후, 이 대화를 요약해 기록으로 남기는 데 10분가량 소요된다. 이제 이 작업을 AI가 도울 수 있다.

AI 어시스턴트는 대화를 실시간으로 듣고, 그 내용을 자동으로 요약한다. 음성-to-텍스트 기술을 통해 대화를 텍스트로 변환하고, LLM은 이 텍스트를 간결하게 요약한다. 

김 박사는 이 결과를 검토한 뒤, 필요시 일부만 수정하면 된다. 비슷한 사례로, 콜센터에서 활용되는 ‘상담원 보조 프로그램’을 살펴보자. 

외부 고객이 전화로 질문을 하면, 이 프로그램은 실시간으로 대화를 듣고 있다가 상담원에게 도움이 될 만한 정보를 컴퓨터 화면에 띄워준다. 

일종의 ‘컨닝 페이퍼(cheatsheet)’ 역할을 하는 것이다. 머지않아 이 보조 시스템이 상담원 자체를 대체하게 될 가능성도 크다.

또한 콜센터에서 수집된 대화는 매일 밤 자동으로 요약되며, 고객의 관심사나 제품의 문제점을 통계적으로 정리해 보여주는 데에도 활용된다.

전통적으로 공장의 자동화는 ‘센서’를 통해 수집된 신호를 전기 신호로 바꾸어 통신하는 방식이었다. 

하지만 LLM은 시각과 소리 같은 감각 데이터를, 센서의 중개 없이 직접 처리할 수 있다.

예를 들어, 조립 공장에서 “전 단계에서 25번 나사가 빠졌네요”라는 음성 지시를 이해할 수 있고, 중장비가 움직이는 환경에서는 “멈춰!”라는 외침에 즉시 반응해 기계를 정지시킬 수 있도록 훈련될 수 있다. 

이는 사고를 예방하기 위한 중요한 안전 기능이 될 수 있다. 이러한 기술은 사람의 생명을 구하는 데도 쓰일 수 있다. 

결국에는 모든 기계 안에 경량형 챗봇이 포함되는 시대가 올 것이다.

 

음성 인식 AI가 이끌 일상의 변화

예를 들어, 한여름에 에어컨이 제대로 작동하지 않을 때, 사용자가 직접 기계에 말을 걸어 문제를 물어볼 수 있게 된다. 또한, 음성을 암호처럼 활용해 문이나 컴퓨터의 잠금을 해제할 수도 있다.

예를 들어, 집주인이 “열려라, 참깨!”라고 말하면, 대문이 주인의 음성을 인식하고 실제로 열리는 식이다. 

머지않아 우리 집 개나 고양이도 음성 기반 시스템을 통해 스스로 들락날락할 수 있게 될지도 모른다.

장애인을 위한 활용 사례도 있다. 음성 명령을 통해 엑셀 작업을 제어할 수 있는 기능이 대표적이다. 

예를 들어, “두 칸 아래, 한 칸 오른쪽으로 가. 그리고 ‘전기료’라고 입력해.”와 같은 방식이다.

Apple Siri나 Amazon Alexa와 같은 음성 기반 가상 비서 시스템을 떠올려보자. 

기계가 먼저 사용자의 음성을 텍스트로 변환하고, 그 다음에는 LLM의 텍스트 처리 능력을 활용해 답을 생성하며, 마지막으로 다시 그 답을 음성으로 바꾸어 사용자에게 응답한다.

같은 원리는 기계 번역에도 적용할 수 있다. 국제 컨퍼런스에서 영어로 진행된 연설을 100개 이상의 언어로 동시에 통역할 수 있으며, 참석자는 이어폰의 채널을 원하는 언어에 맞추기만 하면 된다.

YouTube의 ‘자동 캡션’ 기능도 이와 유사한 음성 모델을 활용한다. 음성을 텍스트로 변환한 뒤, ‘자동 번역(Auto-translate)’ 기능을 선택하면 다른 언어로 번역된 자막이 자동으로 제공된다. 기계가 인간의 언어를 이해하고 가공하는 시대가 열린 것이다.

재미있는 사례로, 현대자동차는 AI가 자동차의 작동 소리를 분석해 문제의 원인을 진단하는 기능을 개발 중이다. 

예를 들어, “쉿” 하는 소리가 들리면 냉각수 누출의 가능성이 있고, “끼익” 하는 소리는 벨트 교체 시점을 의미할 수 있다.

결국, 앞으로는 자동차 스스로 자신의 소리를 듣고, 그 원인을 설명하는 시대가 올지도 모른다.

“주인 어른, 제가 이렇게 쿵쿵거리는 소리를 내는 건 믹서에 이상이 있거나 스파크 플러그가 손상됐을 가능성이 있어요.”

만약 먼 옛날 조상이 지금 이 시대를 방문한다면, 인간이 전화기, 자동차, 에어컨, 공장 기계와 대화를 나누는 모습을 보고 마치 '이상한 나라'에 온 듯한 기분이 들지도 모른다.

 

 

 

황 승 진

한국인 최초의 스탠포드 석좌교수 

스탠포드 경영 대학원 잭디프 로시니 싱 명예교수

'알토스벤처'와 ‘길리아드’ 등 20여 개 기업의 사회 이사 역임

 

[한국인 최초 스탠포드 종신 교수, 황승진의 인공지능 칼럼]

‘음성 AI의 진화, 인간의 말을 모방하는 기술의 비밀’는 한국인 최초로 스탠포드 경영 대학원 석좌 명예교수로 임명된 황승진 교수님의 인공지능 칼럼 '기계가 말하는 이상한 나라의 AI'을 이랜서에서 재편집한 글입니다. 황승진 교수님의 인공지능 칼럼은 총 20회에 걸쳐, AI 혁신과 비즈니스 변화를 심층적으로 다룹니다.

freelancerBanner
projectBanner
댓글0
이랜서에 로그인하고 댓글을 남겨보세요!
0
/200
이랜서에 로그인하고 댓글을 남겨보세요!
0
/200
실시간 인기 게시물
이랜서 PICK 추천 게시물