Interface 기술 발전 방향과 음성인식 Trend
음성은 인간이 사용할 수 있는 가장 자연스러운 의사소통 수단입니다. 음성 인터페이스는 이를 매개로 다양한 기술의 결합을 통해 작동합니다. 이 강의에서는 그 중 가장 앞 부분을 담당하는 기술인 '음성인식' 관련 기본적인 이론과 트렌드를 소개합니다. 그리고 실제 서비스를 개발하기 위해 필요한 기반 요소들에 대해 설명합니다. 음성 인터페이스 기반으로 작동하는 SK텔레콤의 AI 스피커 'NUGU' 개발 사례를 소개하며 음성인식 기술의 발전 방향까지 살펴 봅니다.
- SK텔레콤 AI솔루션기술Cell 정규준 팀장님
# 사용자의 이용 행태 변화
네트워크의 발전과 cloud 방식의 서비스 활성화에 따라 유저들을 다양한 삶의 영역에서 스마트 기기를 활용하기 시작
-> 직관적이고 공통적인 interface에 대한 needs 증가
- 시간, 장소의 제한 없이 동일한 품질의 서비스에 접근하고 사용할 수 있는 유무선 network infra 확산
- cloud 기반의 서비스 플랫폼 확산으로 플랫폼 기반의 서비스 확대
- 서비스 플랫폼과 고객을 연결하는 중간 고리 역할을 하는 디바이스의 다양화
- 효율적이고 효과적인 서비스를 제공하기 위한 수단으로서 직관적이고 공통적인 interface를 요구하는 상황
# Interface 기술 발전 방향
터치스크린을 계기로 스마트폰 시장 촉발 -> 더 자연스럽고 편리하며 감성적인 UX에 대한 요구 증가
UI를 넘어서 virtual assistants로 진화중
최신 Hyper Cycle 화두는 AI
# 음성인식 관련 Trend
음성인식 자체의 기술적 진보 뿐만 아니라 타 분야와의 연계를 통한 사용자 의도 수집, 분석에 활용
성장 기회를 선점하기 위한 플랫폼 사업자 위주의 경쟁 가속화
- 서비스 관점
음성인식은 과거 단어를 인식하는 command/action 중심에서 대화/의미분석 등의
지능형 정보처리 기술과 융합하여 고객 친화적인 서비스를 제공하는 방향으로 발전
- 기술 관점
과거 1~2개 단어 조합에 대해서만 가능하던 수준을 문장 수준 인식까지 상용화
but 아직 대화체 음성인식에 대한 상용화는 더 많은 기술 개발 필요
# 개요
다양한 기술들과 결합하여 고객에게 편리한 서비스를 제공하는 동시에
고객이 반응하는 패턴을 기바느로 고객 분석의 데이터로 활용되면서 영역을 확장하고 있음
# Human to Machine Interface
과거 command/action 중심의 기술에서 향후 대화/의미분석 등의 지능형 정보처리 기술과 융합하여 고객 친화적인 서비스를 제공하는 방향으로 발전
# 기술 분류
규모에 따라 embedded (단말), cloud (서버) 형으로 나뉘며
사용 목적에 따라 연속 음성인식, 키워드 인식으로 분류 가능
# 핵심 기술 : 키워드 음성인식
미리 등록된 키워드만을 검출하는 방식으로 동작
장점 - 적은 resource만을 활용한 시스템 구현 가능, 타 시스템에 확장 가능
단점 - 전체를 인식하는 것에 비해 성능이 떨어짐, 미리 등록된 키워드 외에는 인식 불가
# 핵심 기술 : 끝점 검출
전체적인 UI 관점에서 음성인식의 성능을 좌우하는 요소
start point, end point 검출
# 핵심 기술 : 대어휘 연속어 음성인식
조사를 포함한 모든 단어를 인식하는 것이 목표 -> 많은 리소스 필요
장점 - 비교적 정확한 인식 성능 확보 가능
단점 - 많은 리소스 (메모리, 연산) 필요
크게 모델 학습, 학습된 모델을 이용한 인식 단계로 구분되며
음향, 언어 모델을 학습하는 기술이 핵심
* wFST 기술?
통합모델 기술은 문장 단위 학습에 최적화되어 속도와 인식률 향상
향후 대용향 연속 어휘, 즉 자연어 음성인식을 위한 핵심 기술
# 대어휘 연속어 음성인식 기술 구성 : 발음사전
한국어는 여러 형태소가 결합하여 하나의 띄어쓰기 단위를 구성하기 때문에
단어를 분리할 수 있는 tokenize 필요 (교착어 특성)