말하는 대로 이뤄질지니

입력 2025. 05. 25   11:47
업데이트 2025. 05. 25   13:04
0 댓글

AI트렌드 - 아직은 부족하지만…다가올 음성 AI시대

억양·속도·발음·소음…변수로 
‘맥락’ 이해 기술적 한계에도
앞다퉈 대규모 투자 큰 개선 기대
‘명령만으로’ 코딩 가능한 시대
개발자 일자리 위협 우려 반면
오히려 창의적 문제 집중 낙관도

 

미국의 AI 스타트업 기업 데카곤은 사람의 음성을 문자로 바꿔 AI로 처리한 후, 다시 음성 변환하는 방식으로 현실적 어려움을 해결하고자 한다. 사진은 데카콘의 서비스 소개 페이지. 데카노 홈페이지 캡처
미국의 AI 스타트업 기업 데카곤은 사람의 음성을 문자로 바꿔 AI로 처리한 후, 다시 음성 변환하는 방식으로 현실적 어려움을 해결하고자 한다. 사진은 데카콘의 서비스 소개 페이지. 데카노 홈페이지 캡처


음성 대화가 어려운 이유

“음성 인식해 주세요”라고 말했을 때 인공지능(AI)이 “영성 있는 주희요?”라고 엉뚱하게 알아듣는 경험, 한 번쯤 해봤을 것이다. AI는 문자로 된 고객 상담이나 이메일 응대에서는 뛰어난 성과를 보이지만 전화 상담처럼 음성으로 대화하는 분야에서는 여전히 어려움을 겪고 있다. 이유는 무엇일까?

미국 실리콘밸리에 본사를 둔 고객지원용 AI 개발사 데카곤의 제시 장 최고경영자(CEO)는 정보기술(IT) 전문 매체 인포메이션과의 인터뷰에서 “인간의 말을 이해하고 자연스럽게 대답하는 AI가 아직 너무 비싸고, 느리며, 실수가 많다”고 설명했다.

이는 텍스트와 음성의 근본적 차이에서 비롯된다. 텍스트는 명확하게 단어가 구분돼 있지만 음성은 억양, 속도, 발음, 배경 소음 등 복잡한 요소가 섞여 있어 AI가 정확히 처리하기 어렵다. 자연스러운 대화는 맥락을 이해해야 하는데, 현재 AI 기술은 여전히 한계가 있다.

“기계가 인간의 말을 이해하고 적절하게 응답하는 것은 생각보다 훨씬 복잡한 문제입니다. 우리는 말할 때 많은 정보를 언어적 요소 외에도 비언어적 요소로 전달하기 때문이죠.” 서울대학교 인공지능학과 박지호 교수는 이렇게 설명했다.


음성 AI의 현실적 해결책 

데카곤은 이런 문제를 해결하기 위해 ‘우회로’를 택했다. 사람의 음성을 먼저 문자로 바꾸고, 이 문자를 AI가 처리한 다음, 그 답변을 다시 음성으로 변환하는 방식이다. 일종의 ‘음성→텍스트→AI 처리→텍스트→음성’ 과정을 거치는 것이다. 이 방식은 순수 음성만 처리하는 AI보다 느리지만 정확도가 높다는 장점이 있다. 렌터카 회사 허츠 같은 기업들이 데카곤 시스템을 채택한 이유도 고객에게 잘못된 정보를 제공할 위험을 줄이기 위해서다. 이러한 접근법은 다른 기업들도 채택하고 있다. 국내에서는 네이버와 카카오가 비슷한 방식으로 음성 AI 서비스를 제공하고 있다.

음성 AI의 또 다른 과제는 다양한 발음과 억양을 처리하는 것이다. 표준어가 아닌 사투리나 외국인의 발음, 또는 어린이와 노인의 특수한 발화 패턴은 AI가 정확히 인식하기 어렵다. 이런 문제를 해결하기 위해 많은 기업이 다양한 사용자 데이터를 수집하고 있지만 아직 완벽한 해결책은 나오지 않았다.


프라이버시와 보안 문제

음성 AI가 직면한 또 다른 도전은 프라이버시와 보안이다. 음성 데이터는 개인의 정체성과 직접 연결될 수 있는 민감한 정보이기 때문에 이를 처리하고 저장하는 과정에서 보안 문제가 발생할 수 있다.

대부분의 음성 AI 서비스가 클라우드 기반으로 작동해 인터넷 연결이 필요하고, 데이터가 외부 서버로 전송돼야 한다. 이는 보안 취약점을 드러낼 수 있으며, 완전한 오프라인 환경에서는 사용하기 어렵다는 한계가 있다.


음성 AI의 미래는

AI 연구자들은 음성처리 기술을 계속 개선하고 있으며, 향후 몇 년 내에 비용과 정확도 문제가 크게 개선될 것으로 전망했다. 오픈AI·세서미 AI 등 스타트업들이 음성 AI 비즈니스에 뛰어들고 있으며, 세일즈포스와 같은 대기업도 이 분야에 투자하고 있다.

음성 AI의 발전에 가장 크게 기여하고 있는 것은 대규모언어모델(LLM)과 멀티모달 AI의 발전이다. GPT-4와 같은 모델은 텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 형태의 데이터를 처리할 수 있는 능력을 갖추고 있다. 이러한 통합적 접근법은 음성 인식과 생성 기술의 발전을 가속화하고 있다.

또한 엣지 컴퓨팅 기술의 발전으로 일부 음성처리를 클라우드 서버가 아닌 사용자의 디바이스에서 직접 할 수 있게 되면서 응답 속도와 프라이버시 문제가 개선되고 있다. 애플의 시리(Siri)는 이미 많은 명령을 디바이스 내에서 처리하고 있으며, 구글과 삼성도 비슷한 방향으로 기술을 발전시키고 있다.


바이브 코딩, 누구나 디자이너이자 개발자

AI가 가져온 또 다른 흥미로운 변화는 ‘바이브 코딩’으로 불리는 새로운 트렌드다. 이는 코딩 지식이 없는 사람도 자연어 명령만으로 웹사이트나 앱을 만들 수 있게 해주는 기술이다. 디자인 소프트웨어 스타트업 피그마는 최근 ‘피그마 메이크’라는 새 기능을 출시했다. 이 기능을 사용하면 “파란색 배경에 둥근 버튼이 있는 로그인 페이지를 만들어 줘”와 같은 간단한 문장만으로 실제 작동하는 코드를 생성할 수 있다.

바이브 코딩의 핵심은 ‘의도 이해’와 ‘자동 구현’이다. AI가 사용자의 의도를 정확히 파악하고, 그에 맞는 코드를 자동으로 생성하는 것이다. 과거의 노-코드(No-code) 도구들이 미리 정의된 블록이나 템플릿을 조합하는 방식이었다면 바이브 코딩은 자연어로 직접 지시할 수 있어 유연하고 창의적인 결과물을 만들 수 있다.


직업의 경계가 허물어진다 

바이브 코딩의 등장은 디자이너와 개발자 사이의 경계를 허물고 있다. 디자이너들은 개발자의 도움 없이도 자신의 디자인을 실제 작동하는 프로토타입으로 구현하고, 개발자들은 AI의 도움으로 더 빠르게 디자인 요소를 구현할 수 있게 됐다.

피그마의 콘피그(Config) 콘퍼런스에서 발표된 사례들을 보면 한 마케팅 담당자가 복잡한 제품 데모 페이지를 하루 만에 만들었고, 디자이너가 직접 인터랙티브 프로토타입을 개발해 클라이언트에게 선보이는 경우도 있었다. 이러한 변화는 제품 개발 주기를 크게 단축하고, 더 많은 실험과 혁신을 가능하게 한다.

이런 변화가 개발자들의 일자리를 위협할 것이라는 우려도 있지만, 전문가들은 바이브 코딩이 단순 작업을 자동화함으로써 개발자들이 더 복잡하고 창의적인 문제 해결에 집중할 수 있게 해준다고 본다.


한국에 주는 시사점

글로벌 기술 흐름은 한국 기업과 일반 사용자에게 어떤 의미가 있을까?

첫째, 음성 AI 서비스를 이용할 때는 현실적인 기대치를 가져야 한다. 복잡한 문제나 긴급한 상황은 여전히 사람과 상담하는 것이 좋다. 정확성이 중요한 분야에서는 보조 도구로만 활용하는 것이 현명하다.

둘째, 중소기업과 스타트업에는 새로운 기회가 열리고 있다. ‘바이브 코딩’ 도구를 활용하면 개발자를 고용하지 않고도 기본적인 웹사이트나 앱을 만들 수 있어 초기 비용을 크게 줄일 수 있다.

셋째, 직업 경계가 흐려지고 있다. 디자이너가 코딩하고, 개발자가 디자인하는 시대가 왔다. 이는 다양한 역할을 오가며 일할 수 있는 ‘멀티플레이어’가 더 가치 있는 인재가 될 것임을 의미한다. 교육 기관과 기업들은 이러한 변화에 맞춰 융합형 인재를 양성하는 데 많은 관심을 기울여야 한다.

넷째, 한국어 음성 AI 개발이 더욱 중요해졌다. 영어권에 비해 한국어 처리는 아직 발전 여지가 많아 국내 기업이 한국어에 특화된 음성 AI 솔루션을 개발할 기회가 있다. 한국어의 독특한 어순, 존댓말 체계, 문맥 의존성 등을 고려한 AI 모델은 글로벌 시장에서도 경쟁력을 지닐 수 있다.

다섯째, AI 윤리와 규제에 더 많은 관심이 필요하다. 음성 AI와 바이브 코딩이 대중화되면서 개인정보 보호, 저작권, 책임 소재 등에 관한 새로운 법적, 윤리적 문제가 등장하고 있다.

마지막으로 AI 기술의 발전 속도를 고려할 때 지금 부족해 보이는 음성 AI도 2~3년 안에 크게 향상될 가능성이 높다. 기업들은 이러한 변화에 미리 대비하고, 일반 사용자도 새로운 기술을 열린 마음으로 경험해볼 필요가 있다.

 

필자 한정훈 K엔터테크허브 대표는 일간지 기자로 일했고, 현재 한국과 미국을 오가며 AI·미디어·스트리밍·엔터 테크 분야를 취재하고 있다. 『디지털 인사이트 2025』(공저) 등을 썼다.
필자 한정훈 K엔터테크허브 대표는 일간지 기자로 일했고, 현재 한국과 미국을 오가며 AI·미디어·스트리밍·엔터 테크 분야를 취재하고 있다. 『디지털 인사이트 2025』(공저) 등을 썼다.

 

< 저작권자 ⓒ 국방일보, 무단전재 및 재배포 금지 >
0 댓글