자동화’가 이슈다. 로봇프로세스자동화(RPA)를 비롯해 인공지능(AI)기술이 진화하면서 기업이나 연구기관에서 사용되던 자동화 기술이 우리 일상생활로도 침투하고 있다. 

나 역시 내가 하고 있는 일 중 일부를 자동화하는데 관심이 있다. 단순반복적인 업무가 자동화되면 시간을 줄일 수 있는 것은 자명하다. 아침에 출근해서 IT분야의 주요 기사가 무엇이 있을지 검색하곤 하는데 내 메일로 자동으로 기사 등이 스크랩되면 유용할 것이 분명하다. 

물론 이런 서비스가 없는 것은 아니다. 내가 사전에 설정한 키워드로 뉴스를 스크래핑 해 메일로 보내주는 서비스도 있다. 다만 몇 가지를 사용해봤는데 스팸함으로 들어오는 등 사용이 원활하지는 않았다. 

마침 최근 RPA 기업인 유아이패스가 기자들을 대상으로 RPA로 업무를 자동화하는 간단한 교육을 진행한다고 해서 참여했다. 

이 자리에서 유아이패스 이영기 RPA 컨설턴트는 유아이패스의 ‘스튜디오X’를 이용해 네이버에서 원하는 기사를 스크랩하는 봇 제작 과정을 소개했다. 프로그램 자체는 그래픽 기반(GUI)의 위지윅(what you see is what you get) 개념으로 복잡한 코딩 없이 드래그 앤 드롭과 버튼만으로 업무 흐름을 녹화, 적용할 수 있다.

RPA에 있어 업무의 흐름을 ‘녹화’하고 이를 자동화하는 개념이 새로웠다. 스튜디오엑스의 ‘레코딩’ 기능을 켜고 웹브라우저를 실행한 후 네이버 메인화면에서 댓글 수가 가장 많이 있었던 IT분야 기사 목록을 찾을 때까지 과정을 진행하면 이러한 업무 흐름이 녹화돼 봇에 적용된다.

결국 RPA는 사람이 하는 업무의 과정을 그대로 기록하고 이를 다시 재생하는 개념이라는 생각이 들었다. 물론 중간에 변수를 얼마나 최소화하느냐가 관건이다. 네이버에서 찾고 싶은 기사를 찾는 과정 중간 중간 항목에 대한 정확한 클릭과 지정이 필수적이었다. 뉴스 내용이 리프레쉬 될 때 간혹 에러가 나는 경우도 있었다. 변수를 최소화하는 정도가 아니라 완벽하게 통제되어야 RPA가 제 기능을 한다. 

결론적으로 나의 RPA 도전은 실패였다. 교육과정은 찾고 싶은 뉴스를 엑셀 파일로 전환해 나에게 보여주는 것이었는데 내 노트북에는 ‘한컴오피스’가 깔려 있어 최종 결과물을 보여주지 못했다. 한컴오피스에서도 엑셀파일을 불러오고 쓰는데 문제가 없지만 MS 오피스 말고는 지원하지 못하는 듯 했다. 

RPA를 엑셀 자동화라고 부르는 경우도 많던데 이번 교육을 통해서 뼈저리게 깨달았다. 다른 의미로 RPA 업체 소프토모티브를 인수한 MS의 향후 전략이 더욱 관심이 가기도 한다. 

또 다른 나의 자동화 도전은 음성 인식(Speech to Text)을 통한 텍스트 자동화 구현이었다. 인터뷰를 하게 되면 녹음을 하는 경우가 많다. 문제는 녹취를 들으면서 다시 타이핑하는 것이 은근히 귀찮다는 점이다. 어렸을 때 ‘한메 타자’를 열심히 안한 덕에 창피한 얘기지만 현재도 독수리 타법을 유지하고 있다.

때문에 녹음과 동시에 이를 텍스트로 변환해주는 솔루션엔 예전부터 관심이 많았다. 콜센터 등 기업에선 이미 STT를 적용해 통화 내용을 문서로 전환하고 있기도 하다. 다만 일반 B2C용 솔루션이 쉽게 눈에 들어오진 않았다. 스마트폰 앱스토어에 몇몇 솔루션이 있긴 하지만 비싸거나 효율성에 확신이 없었다. 

그러던 와중에 인공지능 기업인 마인즈랩이 ‘마음 AI’ 서비스를 첫 달 무료 프로모션에 나선다는 얘기를 듣고 서둘러 가입했다. 이 서비스 중 ‘마음(maum) 회의록’ 서비스가 눈에 들어왔다. 회의 중 녹음 파일만으로 회의록 작성과 관리를 한 번에 한다는 소개였다. 

첫 시도는 만족스럽지 않았다. 인터뷰 중 하나를 노트북 녹음기능을 활용해 녹취하고 파일을 서비스에 업로드 했다. 30분 정도의 분량이었는데 변환 자체는 1분이 채 안 걸린 것 같다. 마음 회의록은 결과를 텍스트와 엑셀파일로 보여준다. 하지만 대화한 내용에 비해 AI가 인식한 대화는 극소수였다. 녹음품질에 영향이 있다고 생각했다. 말소리가 울리는 회의실에서 노트북에서 기본 지원하는 마이크로 녹음하니 소리가 다소 웅얼거리는 면이 없지 않았다. 

두 번째 시도에선 스마트폰 녹음을 이용했다. 나는 스마트폰으로 ‘LG V35’를 사용하는데 녹음과 음악재생 기능 면에선 어디에 빠지지 않는다. 같은 과정을 거쳐 업로드 하고 결과물을 봤는데 먼저보단 결과가 좋았지만 단어 단어 중간이 빠지는 등 맥락이 이어지지 않았다. 

세 번째는 스마트폰 통화 녹음을 올려봤다. 안드로이드 자체 통화녹음 기능을 이용하면 녹음 품질이 좋지 않을까 하는 생각이었다. 결과적으로 두 번째보다 좋았지만 대화를 복기하는 과정이 필요했다. ‘엔진’이 ‘인진’으로, ‘노력’이 ‘노사’로 출력되는 등 다소 오류가 있었지만 사용할 만 했다.

마지막으로는 자체 웨비나 행사에서 사전 녹화된 동영상에서 녹음만 추출해 적용해봤다. 아무래도 프로 장비로 녹화한 결과물이 음성 품질이 보장된다는 믿음에서다. 결과적으로 이 결과물이 가장 쓸만했다. 

결론적으로 STT는 녹음품질이 절대적으로 중요하다는 것이 개인적인 느낌이다. 마인즈랩은 고객용 별도 모델 생성의 경우 85% 인식률을 보장한다고 소개하고 있다. 인공지능이 학습을 통해 발전하는 만큼 특정 도메인에 언어학습이 이뤄질 경우 개선될 여지는 있어 보인다. 다만 범용으로 쓰기에는 아직 한계가 있다는 느낌이다.
저작권자 © 딜라이트닷넷 무단전재 및 재배포 금지