정확한 음성인식, 언어 이해를 위해 학습하는 아마존 '알렉사'
사람의 음성은 어떻게 문자신호로 변해 AI를 움직일까
AI는 사람의 의도대로 학습한다? 그들이 시장을 선점하려는 이유
글. 김시우 ECM특허볍률사무소 대표변리사
Idea In Brief
AI 스피커 시장이 나날이 성장하고 있다. 세계 각국의 내놓으라는 IT기업들이 저마다 개발한 인공지능 플랫폼을 탑재해 스피커 등 가전기기와 결합하고 있다. 그렇다면 인간의 음성을 기반으로 명령을 수행하는 AI 스피커는 어떤 방식으로 명령을 해석하고, 또 수행하는 것일까. 아마존이 특허 등록한 인공지능 플랫폼을 통하여 그 작동 방식을 확인해본다. 그 과정을 통해 왜 수많은 기업들이 인공지능 플랫폼 보급에 열중하고 있는지 발견할 수 있을 것이다.
AI 스피커 시장의 확장
AI(Artificial Intelligence) 스피커 시장이 점점 커지고 있다. 아마존(Amazon)의 에코(Echo), 구글(Google)의 구글홈(Google Home), 애플(Apple)의 홈팟(HomePod)뿐만 아니라 국내의 경우 SKT의 누구(NUGU), KT의 기가지니(GiGA Genie), 삼성의 빅스비(Bixby) 등 다양한 AI 스피커 제품이 출시됐다. AI 스피커 시장은 단순한 스피커 제품이 아닌, 하나의 플랫폼으로서 많은 IT업체들이 시장 선점을 위해 노력 중이다.
아마존은 인공지능 플랫폼 알렉사(Alexa)를 음성 인터페이스로 활용한 아마존 에코닷(Echo Dot) 2세대를 출시 및 판매중이다. 에코닷은 알렉사를 음성 인터페이스로 활용해 음악 재생, 스마트홈 장치 제어, 전화 걸기, 메시지 송수신, 뉴스 읽기 등 다양한 기능을 수행할 수 있다. 뿐만 아니라 다른 IoT(Internet of Things) 기기와 연동해 IoT 장치 제어에 활용할 수도 있다.
▲ 아마존 에코닷(Amazon Echo Dot) 2세대
이 같은 AI 스피커는 기본적으로 인간의 음성을 인식해 동작한다. 때문에 AI 스피커의 성능은 인간의 언어를 얼마나 잘 이해하느냐에 달려있을 것이다. 그렇다면 아마존 알렉사는 어떤 방식으로 인간의 음성을 이해하는 것일까? 2016년 12월 28일 출원된 아마존 특허 <US9,911,413 “NEURAL LATENT VARIABLE MODEL FOR SPOKEN LANGUAGE UNDERSTANDING”>를 통해 AI 스피커가 인간의 언어를 이해하는 방법에 대해 알아볼 수 있다.
AI 스피커가 음성을 인식하는 과정
인간의 목소리(이하, 명령)가 AI 스피커의 마이크를 통해 입력되면 ‘스피치 프로세서(SPEECH PROCESSOR)’(110)는 음성 신호를 음성 신호 벡터로 변화시킨다. 음성 신호 벡터는 ‘스피치 인식기(SPEECH RECOGNIZER)’(120)와 ‘언어 특징 추출기(LINGUISTIC FEATURE EXTRACTOR)’(121)를 통해 ‘언어 표현 정보(LINGUISTIC REPRESENTATION)’로 추출된다. 여기서 언어 표현 정보는 기존의 단어 관련 정보를 고려하여 추출된다.
예를 들어 AI 스피커에 [Alexa, post a tweet saying Hello(알렉사, ‘안녕’이라는 트윗을 게시해줘)]라는 명령을 내린다 가정해보자. 먼저 음성 신호 ‘Alexa post a tweet saying Hello’가 전체 음성 신호 벡터로 표현된 후, 전체 음성 신호 벡터는 단어 DB를 기반으로 분할된다. 이 분할된 음성 신호 벡터는 단어마다 고정된 길이의 하위 음성 신호 벡터(예를 들어 ‘post'에 해당하는 고정된 길이의 하위 음성 신호 벡터)인 언어 표현 정보로 추출된다.
이렇게 추출된 언어 표현 정보는 ‘스킬 분류기(SKILL CLASSIFIER)(130)’, ‘의도 분류기(INTENT CLASSIFIER)(141)’ 및 ‘슬롯 인지기(SLOT RECOGNIZER)(150)’로 입력된다.
먼저 스킬 분류기(130)는 언어 표현 정보를 통해 입력된 명령에 알맞은 스킬을 결정할 수 있다. [Alexa, post a tweet saying Hello]라는 명령에서 스킬은 ‘트위터(tweeter)’일 것이며, 이는 ‘트윗(tweet)'이라는 명령의 상위 개념이다. 즉 스킬은 음악, 쇼핑 등 해당 명령과 관련된 가장 상위 카테고리일 수 있으며, 때로는 명령에 따라 복수의 스킬과 관련성을 가질 수도 있다.
의도 분류기(141)는 언어 표현 정보를 통해 입력된 명령의 의도를 결정할 수 있다. [Alexa post a tweet saying Hello]라는 명령에서 의도는 “post a tweet saying Hello”다. 앞서 스킬 분류기에 의해 결정된 스킬 각각은 수천, 수만 가지의 의도와 연결될 수 있다. 예를 들어 스킬이 ‘트위터’인 경우, ‘post’ a tweet(게시), ‘reply’ to a tweet(대답), ‘search’ for a tweet(검색) 등 ‘트위터’란 스킬과 연결되는 다양한 의도가 존재한다.
슬롯 인지기(150)는 언어 표현 정보에서 의미 있는 정보를 인지한다. 예를 들어, [play mother’s little helper by rolling stones(롤링 스톤즈의 mother's little helper 틀어줘)]라는 명령을 입력받은 경우, 분류된 스킬은 ‘음악(music)’이고, 의도는 ‘재생(play)’이고, 슬롯은 ‘mother’s little helper by rolling stones‘다. 슬롯 인지기는 문장의 문법적 구조를 고려하여 의도/명령의 핵심 정보를 슬롯으로서 찾아 인지한다.
이렇게 분류 및 인지를 마친 스킬, 의도, 슬롯은 ‘스킬 프로세서(SKILL PROCESSOR)’(160)를 거쳐 명령 수행을 위한 관련 기기를 동작시킨다.
정확한 언어 이해를 위한 학습모델
알렉사가 입력된 언어를 제대로 이해하기 위해서는 스킬, 의도, 슬롯에 대한 정확한 분석이 선행돼야 한다. 때문에 알렉사의 의도 분류기는 입력된 데이터를 기반으로 학습이 가능하다. ‘인공 뉴럴 네트워크(Artificial Neural Network)’와 ‘딥 뉴럴 네트워크(Deep Neural Network)’를 사용할 수 있는 의도 분류기는 축적되는 데이터에 따라 뉴럴 네트워크의 변화하는 가중치를 감지하고, 이를 학습해 보다 정확하게 명령의 의도를 판단할 수 있게 된다.
예를 들어보자. 우선 언어 표현 정보 입력에 따른 의도 분류기의 출력값은 복수가 될 수 있다. [Alexa post a tweet saying Hello]라는 명령이 언어 표현 정보(125)로서 입력되는 경우, 의도 분류기는 ①‘post’ a tweet, ②‘reply’ to a tweet, ③‘search’ for a tweet과 같은 서로 다른 출력값(245)을 생성할 수 있다. 그 가운데 각각의 출력값은 서로 다른 확률값을 가진다. 학습정보에 따라 각각 ①60%, ②30%, ③10%와 같이 분류될 수 있으며, 의도 분류기는 가장 높은 확률값을 가지는 ①‘post’ a tweet(60%)이 명령의 의도라고 판단하게 된다.
의도 분류기의 학습을 위해 사전에 언어 표현 정보와 연결되는 의도, 또는 연결되지 않는 의도를 구분하여 세트를 구성한 후 입력할 수도 있다. 예를 들어 언어 정보 표현 [Alexa post a tweet saying Hello]에 연결되는 의도로 ‘post a tweet’을 구성하고, 연결되지 않는 의도로 ‘reply to a tweet’을 구성해 학습시킬 수 있는 것이다. 이 같은 학습을 통해서도 뉴럴 네트워크의 가중치는 변화하며, 이후 의도 분류기의 출력값과 확률값 산출에 영향을 줄 수 있다.
음성명령이 문자명령으로 변환‧전달되기까지
사람의 음성 신호가 ‘어쿠스틱 신호(ACOUSTIC SIGNAL)’로 입력되는 경우, ‘웨이크워드 디텍션 모듈(WAKEWORD DETECTION MODULE)(1220)’이 AI 스피커를 동작 가능 상태로 만드는 웨이크워드를 포함하는지 여부를 판단한다. 여기서 웨이크워드란 말 그대로 ‘깨우는 말’로, ‘Alexa’라는 이름을 부르면 AI 스피커가 동작 가능 상태로 변화하듯, 명령 전달을 위한 사전단계에 쓰이는 단어다. 이후 ‘AFE(ACOUSTIC FRONT END)(1256)’는 마이크를 통해 입력된 음성명령을 음성 인식 엔진(Speech Recognition Engine)이 인식할 수 있는 특징 벡터로 변경한다.
스피치 인식 엔진은 ‘어쿠스틱 모델(ACCOUSTIC MODEL)(1253)’과 ‘언어 모델(lANGUAGE MODEL)(1254)’을 기반으로 특징 벡터를 단어‧음소와 연결할 수 있다. 어쿠스틱 모델은 입력된 특징 벡터를 음소 단위로 인지한다. 한편 언어 모델은 문법 모델(Grammar Model)을 사용해 현 문장에서 해당 음소가 자리한 위치를 파악한 뒤, 그것이 어떤 단어인지 결정한다. 스피치 인식 엔진은 입력된 음성 신호를 위 과정을 거쳐 문자로 변환해 ‘NLU(NATURAL LANGUAGE UNDERSTANDING)(960)’로 전달한다.
NLU로 전달된 문자명령은 NLU를 구성하는 ‘NER(NAMED ENTITY RECOGNITION)’(1262)와 ‘IC(Intent Classification) MODULE(1264)’을 통해 해석된다.
NER은 ‘언어 문법 저장소(LINGUISTIC GRAMMAR)(1276)’와 ‘스킬 및 의도 모델(SKILL AND INTENT MODEL)(1278)’을 사용해 앞서 설명한 스킬 분류기 및 슬롯 인지기의 역할을 수행한다. NER은 입력된 텍스트와 연관된 스킬(또는 도메인)을 결정하고, 언어 문법 저장소를 활용해 스킬과 관련된 슬롯을 찾아낸다. 스킬은 앞서 말한 트위터일 수도 있고, 쇼핑, 음악 등일 수도 있다.
언어 문법 저장소는 사용자의 스킬마다 형성된다. 즉 쇼핑에 대한 언어 문법 저장소, 음악에 대한 언어 문법 저장소가 별도로 형성되는 것이다. 더불어 각각의 언어 문법 저장소는 사용자의 언어 습관, 사용자가 자주 방문하는 쇼핑 사이트, 사용자의 음악 컬렉션 등 사용자 특성과 취향에 따라 변화한다. 이러한 방법을 통해 AI 스피커가 사용자의 명령을 보다 정확하게 이해하고 수행할 수 있다.
‘IC MODULE’은 입력된 텍스트의 의도를 이해하기 위한 구조로, 스킬별 언어 문법 저장소를 활용해 의도를 결정한다. 예를 들어 [play mother’s little helper by rolling stones]가 AI 스피커에 입력되면, ‘play’라는 동사가 음악이라는 스킬에 관련되기 때문에 ‘play music’이라는 의도를 가진다고 판단하는 것이다.
이처럼 스킬과 의도가 결정된 경우, 문장 뒷단의 ‘mother’s little helper by rolling stones’라는 명령은 어떤 식으로 해석되는 것일까. 알렉사는 ‘play music’을 명령 의도라 판단했다면, ‘paly’ 뒤에 위치한 단어를 {Artist name}, {Album name}, {Song name}과 같은 슬롯으로 인지한다. 문법 구조를 기반으로 사용자의 의도를 보다 정확하게 해석하는 것이다.
위와 같은 NLU를 거친 [play mother’s little helper by rolling stones]라는 명령은 다음과 같이 해석된다.
이러한 해석 결과를 음악 플레이 어플리케이션으로 전달해 사용자가 원하는 음악을 재생할 수 있는 것이다.
결국 AI 스피커는 의도된 학습을 거친다
위에서 살펴본 AI 스피커의 동작 원리 중 주목해야할 부분은 AI의 학습 과정에서 제작사의 의도가 들어갈 수 있다는 점이다. 물론 명령에 대한 알렉사의 응답은 사용자의 특성이 반영된다고 하나, 이는 객관적이지 않다. 사전 입력되는 데이터 및 학습 방법과 결과에 대해 제조사인 아마존의 판단이 들어갈 수 있기 때문이다. 즉 다양한 제품군의 AI 스피커는 각 제조사의 의도에 따라 서로 다르게 학습하는 것이다.
예를 들면 아마존 에코닷을 통해 상품을 주문 시 아마존 관련 플랫폼을 통해 특정 상품을 주문하도록 유도할 수도 있다. 이는 음악이나 영화 등 스트리밍 플랫폼을 이용할 때, 그 외에 각종 정보를 파악하고 소비할 때도 마찬가지다. 다양한 기업들이 AI 스피커 시장, 인공지능 플랫폼 시장을 선점하려는 것도 이러한 이유에서라 판단된다. 새로운 플랫폼을 선점함으로써 이후 따라오게 될 시장점유 효과를 노리는 것이다.
향후 국가 간 언어 장벽이 무너지고, 배송 장벽이 무너진다면 어떻게 될까. 승자는 다수의 사용자를 보유한, 가장 편리하면서도 정확한 인공지능 플랫폼을 가진 기업이 될 것이다. 많은 사람들이 언어 및 배송 문제로 해외 쇼핑을 꺼려하는 지금, AI 스피커를 통해 한국어로 해외 쇼핑을 자유롭게 할 수 있다면. 그리고 배송 부담 또한 점차 적어진다면, 인공지능 기술을 보유한 기업과 그렇지 못한 기업의 시장점유율의 차이는 갈수록 벌어질 것이다.