딜라이트닷넷

AI '사만다‘와 ’자비스‘… 생각보다 가까이 왔다

통신방송 18.04.05 08:04


지난 2013년 개봉한 영화 ‘그녀(Her)’에는 인공지능(AI) 운영체제 ‘사만다’와 사랑에 빠진 인물이 등장한다. 아이언맨 시리즈에서 토니 스타크를 보조하는 AI ‘자비스’ 역시 인간의 말에 태클을 걸거나 비꼬기도 한다. 이밖에도 픽션에서 그려지는 수많은 AI는 인간과 육성을 통해 자연스러운 대화를 나눈다. 우수한 대화 능력은 AI에 친근함을 느끼고, 때론 인간처럼 착각하게 만드는 가장 큰 요인이다. 

애플의 시리, 구글의 구글어시스턴트 등 스마트폰 인공지능 비서에 이어 최근 수많은 AI 스피커가 쏟아지고 있다. 기계와 인간이 음성으로 대화를 나누는 장면은 더 이상 놀랍지 않다. 음악을 틀고, 날씨를 묻고, 물건을 주문하는 것도 일상에 가까워졌다. 

다만 이는 인간의 음성 명령을 인식하는 것이지, 엄연히 따져 대화와는 거리가 멀다. 정해진 명령 외 일상적인 문장으로 말을 건넨다면 대부분의 인공지능 기기들은 “잘 이해하지 못했어요”라는 대답을 내놓는다. 이는 성능이 부족해서는 아니다. 대화 자체가 제품 본연의 목적이 아니기 때문이다.



인간의 대화를 흉내 내는 프로그램은 1993년부터 존재했다. ‘맥스’라는 타자 연습 게임은 어느 정도 이용자의 말을 이해하는 것처럼 보였다. 원리는 사용자가 입력한 문구 중 일치하는 단어가 있으면, 이를 탐지해 미리 입력된 답변을 출력하는 방식이다. 복잡한 방식은 아니지만 당시엔 신선하다는 평가를 받았다. 그러나 실제로 대화하는 느낌을 주지는 못한다. 맥락을 이해하지 못해 동문서답을 하는 경우가 많고 답변의 변수도 한정돼 있다. 금방 질리게 된다. 

이후 발전된 방식의 챗봇 ‘심심이’가 2000년대에 등장했다. 이미 입력된 답변만 할 수 있었던 맥스에 비해 심심이는 수많은 이용자가 대화 패턴을 가르칠 수 있었다. 집단지성 데이터가 쌓이면서 재치 있는 답변도 늘어났다. 그러나 많은 데이터가 좋은 답변을 보장하지는 않는다. 못된 말을 배운 경우 욕설이나 음란어를 출력하기도 한다. 답변 가능한 문장이 많을 뿐 한계 자체는 맥스와 동일하다. 

최근 등장하는 대화 서비스들은 인간의 설계가 아닌 기계학습(머신러닝)을 통해 지속 발전한다는 점이 다르다. 중요한 차이점은 미지의 입력 데이터에 대한 처리 능력이 크게 높아졌다는 부분이다. 같은 의도를 가졌더라도 사람들은 각기 다른 표현 방식으로 말한다. 이를 묶어 일반화 하는 기술이 크게 향상됐다. 아울러 축적된 데이터가 많을수록 어느 정도 인간의 말에 담긴 의도나 감정을 읽어낼 수 있게 됐다. 

영국의 온라인 쇼핑몰 오카도는 고객지원 서비스에 자연어 처리 API를 적용했다. AI가 메일에 담긴 내용을 인지해 불필요한 메일을 걸러내고, 긴급한 답변을 요구하는 메일에 더 빠른 속도로 회신할 수 있게 됐다. 

국내에도 배달, 숙박 애플리케이션(앱)들이 비슷한 방식을 도입하고 있다. 알지피코리아, 위드이노베이션 등은 이용자가 남긴 후기 내용이 부정적인지, 긍정적인지 자동으로 분류하는 데 이를 활용한다. 알지피코리아는 이 방식을 통해 2시간 걸리던 후기 분류를 1시간 이내로 줄일 수 있었다. 

긍정, 부정 외 조금 더 세심하게 감정을 읽어내는 기술도 나왔다. 휴마트컴퍼니가 지난달 내놓은 ‘감정스캐너’는 고민 내용을 입력하면 분노, 공포, 좌절 등이 어느 정도 강도와 빈도로 존재하는지 분석해 알려준다. 스트레스를 받고 있지만 자신의 감정에 대한 정리가 부족해 설명을 하지 못하는 사람을 돕는다. 이를 기반으로 심리 상담 전 사전 정보를 얻고, 합당한 심리상담 전문가를 소개받을 수 있다. 

오는 4분기엔 스캐터랩이 관계형 AI 대화 솔루션 ‘핑퐁’을 내놓는다. 이 회사는 카카오톡과 비트윈의 메시지 대화 기록을 분석하는 앱 ‘텍스트앳’과 ‘진저’를 운영하고 있다. 이를 통해 30억쌍에 달하는 대화 기록을 확보했다. 머신러닝으로 사람과 사람이 나눈 일상적 대화를 학습시켰다. 

스캐터랩에 따르면 핑퐁은 일상적인 대화 300개 예시에 대해 87% 정확도로 적절한 대답을 내놓는다. 같은 실험에서 시리는 25%, 빅스비는 15%, 누구는 5%의 정확도를 보였다. 핑퐁의 데모 영상에서 두 핑퐁이 75분 동안 대화를 반복하는 장면도 볼 수 있다.

핑퐁과 같은 대화 기술이 음성합성시스템(TTS)과 결합하면 재미있는 결과를 낼 수 있다. TTS 기술 역시 크게 발전했다. 구글의 자회사 딥마인드가 개발한 웨이브넷이 내는 소리는 평균발성점수(MOS) 4.53을 기록했다. 성우들의 평균 점수는 4.58이다. 대화 내용을 제외하면 사람과 기계가 하는 말을 구분해내기 쉽지 않다. 

배우 없이 배우 목소리를 합성해 서비스를 만들어 내는 것도 가능하다. 영화 ‘그녀’에 인공지능 사만다 목소리를 맡았던 스칼렛 요한슨이나, 자비스의 목소리를 맡았던 폴 베타니의 목소리로 대화를 하는 것도 구현 가능할 전망이다. 한 개발자는 손석희 아나운서의 목소리를 합성한 샘플 버전을 만들어 공개하기도 했다. 

만약 정교한 컴퓨터 그래픽의 게임 또는 로봇 기술과 이런 대화 솔루션들이 합쳐진다면 다소 무서운 결과를 낳을지도 모른다. 드문 경우지만 이미 2차원(2D) 캐릭터에 실제 인간보다 더 애착을 느끼는 ‘2D 콤플렉스’도 있다. AI가 인간과 유사한 감정을 갖게 만들 가능성은 매우 희박한 것으로 알려져 있다. 반면 인간이 AI가 감정을 갖고 있다고 착각하는 경우는 충분히 나올 수 있다고 전문가들은 경고한다. 더욱이 기존에 애책을 갖고 있는 연예인이나 캐릭터와 AI가 접목된다면 파급력은 더 커보인다. 바둑과 일자리 외 연애상대까지 AI가 뺏어갈까 걱정해야 하는 시대가 가까워진 것 같다.


<이형두 기자>dudu@ddaily.co.kr