“구글 음성인식 기술, LG 스마트폰 지원하면 시장 큰 변화”

[2017 AI 컨퍼런스] 음성통신기술 권위자 장준혁 한양대 교수 “《아이언맨》의 AI 자비스 같은 기술 개발이 목표”

2017-09-04 변소인 시사저널e. 기자

인공지능(AI)은 자동차와 결합돼 자율주행, 의학에 적용돼 암 진단·치료, 소셜네트워크서비스(SNS)와 융합해 맞춤형 정보서비스를 제공하고 있다. 그만큼 인공지능은 우리 삶 속에 깊이 들어와 있다. 시사저널e는 9월25일 서울 삼성동 코엑스에서 ‘AI, 현재가 된 미래의 삶, 인공지능이 바꾼 일상 & 비즈니스’라는 주제로 제3회 인공지능 컨퍼런스를 개최한다. 행사에 앞서 인공지능 석학과 업계 전문가를 만나 컨퍼런스에서 다뤄질 핵심 이슈들을 미리 점검해 본다.

음성은 인공지능과 사람을 잇고 또 인공지능과 사물을 이어주는 미래 핵심 플랫폼이다. 인위적이거나 불편한 행동이 아닌 대화로 첨단기술을 만나게 해 주는 소중한 연결고리다. 음성인식 기술이 어떻게 진화하며 어떻게 변하고 있는지 8월29일 장준혁 한양대 융합전자공학부 교수를 만나, 최신 기술 트렌드를 물었다.

장준혁 한양대 교수 © 시사저널 임준선

이번 ‘인터스피치 2017’에서 어떤 내용이 눈에 띄었나.

스웨덴에서 8월20일(현지 시각)부터 24일까지 열린 ‘인터스피치 2017’에 참여했다. 학회가 반년마다 열려 큰 변화가 있었던 것은 아니지만 구글의 음성인식 변화가 가장 기억에 남는다. 구글 관계자가 구글홈 원리를 설명해 줬는데, 예전에는 구글이 많은 빅데이터를 넣고 딥러닝(Deep Learning)하는 방식으로 음성인식을 처리했다면, 이번에는 앞단에서 잡음을 잘 필터링하는 기술을 사용한다고 발표했다. 발표 내용이 처음 듣는 소식이라 신선했다. 이 기술은 우리 연구팀이 하고 있는 방식이다. 구글이 이런 발표를 하니 참석자 대다수가 모여들었다. 가장 관심을 크게 받은 세션이었다.

어떻게 처리 방법이 달라졌는지 구체적으로 설명해 달라.

기존에는 하나의 딥러닝이 빅데이터로 잡음을 알아냈다. 하지만 이번에 발표한 내용에 따르면, 두 개의 딥러닝이 사용된다. 잡음을 제거하는 딥러닝과 판단하는 딥러닝이다. 예를 들어 원음과 잡음이 섞인 오염된 신호가 잡음을 제거하는 딥러닝에 들어가면 깨끗한 원음 추정치가 나온다. 다만 이것은 추정치이기 때문에 원음보다는 깨끗하지 못하다. 판단하는 딥러닝은 어떤 것이 진짜 깨끗한 원음인지 판단하게 된다. 이렇게 두 딥러닝이 판단을 반복할수록 잡음을 제거하는 딥러닝은 판단하는 딥러닝을 헷갈리게 하기 위해 더 깨끗한, 원음에 가까운 음질을 추출해 낸다.

삼성전자 음성인식과 비교해 달라.

구글은 음성이 들어오면 계속 판단을 한다. 음성인식에 있어서 인식률이 제일 중요하지만 반응 속도도 사용자들에게는 매우 중요하다. 반응 속도가 느려 버벅거리면 만족도가 현저히 떨어지기 때문이다. 그런 관점에서 삼성전자 음성인식과 구글 음성인식은 차이가 많이 난다. 예를 들면 삼성전자 빅스비는 음성이 끊어질 때까지 기다린 다음에 결과를 내놓기 때문에 느리다. 구글 어시스턴트는 ‘내일 날씨가 어때’라고 물으면 좀 더 기다려본다. 뒤에 좀 더 구체적인 지명 등이 나올 것을 예상하는 거다. 반면 ‘내일 서울 날씨 어때?’라고 물으면 더 들을 필요 없이 바로 인공지능을 별도로 돌린다. 구글은 별도 엔진이 더 이상 질문할 의도가 없는 것 같으면 끊고 바로 결과를 낸다. 여기서 차이가 난다.

LG전자 V30에 구글 어시스턴트 한국어 버전이 지원된다면 판도가 바뀔까.

나오지 않아서 어느 정도 성능이 나올지 가늠하기는 어렵지만 지금의 구글 어시스턴트 영어 버전을 보면 분명 성능이 괜찮다. 아마 빅스비와 한판 붙게 될 것 같다. 게다가 어시스턴트는 높은 인식률과 검색서비스도 보유하고 있다. 실험을 한다면 아마 최상의 점수를 받지 않을까 예상해 본다.

LG전자도 자체적으로 인공지능 개발에 공을 들이고 있나.

많이 연구하고 있는 걸로 알고 있다. 인천국제공항에 공항 로봇이 있는데 그 로봇에 음성인식 기술을 넣기 위해 주력하고 있다. 공항이라는 장소의 특성상 소음이 많아 음성인식을 하기에 매우 열악한 환경이다. 만약 거기서 음성인식이 잘된다면 그것은 기술력을 인증받는 셈이다. LG전자가 최근 인공지능 연구소도 개편했다. IT(정보기술)는 방향을 제대로 잡지 못하면 크게 고생하기 때문에 인공지능에 크게 신경을 쓰고 있다.

또 인터스피치에서 주목할 만한 점은 있었나.

예전보다 화자(話者) 인식 세션이 어마어마하게 늘었다. 3배 정도 많아졌다. 각 기업에서 특정 등록된 화자만 인식하려는 노력을 많이 하고 있다. 지금 인공지능 스피커나 인공지능 비서들은 TV에 취약하다. 엉뚱하게 자주 깨어난다. 음성인식은 항상 켜져 있는 올웨이즈온(Always on)이기 때문에 이런 오류를 줄여야 한다. 화자의 목소리마다 다른 숫자열 개념을 딥러닝에 적용하려는 시도가 본격적으로 이뤄지고 있다.

음성 합성 트렌드는 어떤가.

기존에는 음성 합성이라는 게 음성을 다 잘게 쪼개서 이어 붙이는 방식이었다. 하지만 이런 방식은 자연스럽지 못하고 감정을 조절한다든지, 소량의 목소리 데이터로 적용하기엔 무리가 있다. 그래서 요즘 텍스트를 인공지능에 입력하면 바로 음성이 나오는 엔드투엔드(End-to-End) 음성합성 기술이 떠오르고 있다. 구글이 데모 버전을 발표했는데 매우 자연스러웠다. 우리 연구팀은 한국어 버전을 만들고 있다. 아직은 중간에 소리가 튀는 부분이 있는데 몇 달 뒤에는 소리가 더 좋아질 것이다. 이렇게 되면 좋아하는 연예인 등의 목소리 일부로도 자연스럽게 음성합성을 할 수 있다.

장 교수 연구팀이 개발하고 있는 자체 인공지능 스피커는 언제 나오나.

현재 제작 업체와 협의해 최대한 멋있게 나올 수 있도록 조율하고 있다. 화면까지 장착해 말하면 화자가 누군지 사진이 뜨게끔 할 계획이다. 데이터가 많이 부족한 학교에서 전부 다 만들었다는 건 의미가 있다. 2대 정도 제작할 계획이다.

앞으로 음성인식, 인공지능 비서 서비스는 어떤 방향으로 나가게 될까.

연구·개발하는 사람이라 성능을 높이는 데 집중하는 거지, 어떻게 발전해 나갈지는 여러 가지 다른 이슈가 걸린 문제이기 때문에 짐작하기가 쉽지 않다. 그러나 목표는 영화 《아이언맨》에 나오는 인공지능 ‘자비스’ 같은 거다. 명백한 것은 인공지능 스피커가 음성인식의 헤게모니를 잡을 것이다. 언제, 어디서나 사람이 이야기하면 그것을 인식해 결과를 주고 대화하고 응대하는 방식이다. 인공지능 스피커가 여러 가전의 허브 역할을 톡톡히 하게 될 거다.

인공지능 트렌드는 어떤가.

예전에는 데이터를 주면 정답도 같이 줬다. 하지만 많은 경우 데이터에 정답지가 없다. 또 잘한 행동을 하면 상을 주고 잘못한 행동을 하면 벌을 주는 강화학습도 많이 쓰이고 있다. 이것을 잘 이용하면 인공지능이 자가발전하는 데 큰 도움이 된다. 인간과 많이 비슷한데 딥러닝이 사람 신경을 모방한 것이라서 그렇다. 연구하다가 막히면 이럴 때 사람은 어떻게 할까를 생각한다. 그래서 대개 뇌공학 연구자와 딥러닝을 같이 연구한다.

새로운 소식이 있다면.

내년에 ICASSP(신호처리국제학술대회)를 처음으로 한국에서 연다. 내가 등록 담당이어서 한국에서 개최해 달라고 강력하게 추천했다. 북한 미사일 이슈로 위험하지 않겠느냐는 일부 회원들의 의견이 나와 투표를 실시하기도 했다. 이번에 한 번 개최하면 30년 동안 다시는 안 열릴 수 있다. 올림픽만큼 중요한 행사다.