OpenAI의 Discord 채널에서는 "Advanced Voice가 이번 주 동안 ChatGPT 앱의 모든 Plus 및 Team 사용자에게 순차적으로 제공될 예정"이라고 발표했습니다. 그런데 저는 오늘부터 이 기능을 사용할 수 있게 되어 바로 테스트해 보고 이 글을 작성하게 되었습니다.

ChatGPT의 고급 음성 모드(Advanced Voice Mode, AVM)가 드디어 Plus 사용자들에게 공개되었습니다. OpenAI는 이번 주부터 모든 ChatGPT Plus 및 Team 계정 사용자들에게 이 새로운 기능을 순차적으로 제공하고 있습니다. 현재 이 기능은 ChatGPT 모바일 앱(iOS 및 Android)에서만 사용 가능하며, 무료 사용자나 데스크톱 버전에서는 아직 이용할 수 없습니다.

ChatGPT의 고급 음성 모드(Advanced Voice Mode, AVM)는 사용자에게 더욱 자연스럽고 인간적인 대화 경험을 제공하는 것을 목표로 합니다. 이 모드는 향상된 대화 속도, 부드러움, 특정 외국어의 억양 개선 등을 특징으로 합니다. AVM은 GPT-4o의 네이티브 오디오 기능을 사용하여 말하는 속도와 같은 비언어적 신호를 포착하고 감정을 담아 응답할 수 있습니다.

현재 AVM은 ChatGPT 모바일 앱(iOS 및 Android)에서만 사용 가능합니다. 데스크톱 버전에서는 아직 이 기능을 사용할 수 없습니다. 앱에서 AVM을 시작하려면 화면 우측 하단에 있는 음성 아이콘을 클릭하면 됩니다. 이 버튼을 누르면 고급 음성 대화 모드로 전환되어 AI와 음성으로 대화를 나눌 수 있습니다.

새로운 기능으로는 9가지의 생생한 음성 옵션이 제공됩니다. (Arbor, Breeze, Cove, Ember, Juniper, Maple, Sol, Spruce, Vale)

각 음성은 고유한 톤과 특성을 가지고 있어 사용자의 취향에 맞게 선택할 수 있습니다. OpenAI는 전 세계의 전문 성우들을 통해 이 목소리들을 제작했다고 밝혔습니다. 이러한 다양한 음성 옵션의 도입은 지난 5월 발생한 논란과 관련이 있어 보입니다. 당시 스칼렛 요한슨은 OpenAI가 'Sky'라고 명명한 음성이 자신의 목소리와 놀랍도록 유사하다고 주장했습니다. 특히 많은 사람들이 이 음성을 2013년 스파이크 존즈 감독의 로맨틱 SF 영화 "그녀(Her)"에서 요한슨이 연기한 AI 음성과 비교했습니다. 이로 인해 목소리 유사성 문제와 관련된 논란이 일었고, OpenAI의 이번 조치는 이러한 논란을 피하고 법적 문제를 예방하기 위한 것으로 보입니다.

테스트를 해본 결과, AVM의 주요 특징들을 경험할 수 있었습니다.

  • 사투리 구사: 경상도, 전라도, 충청도 사투리를 구사할 수 있었지만, 약간의 어색함이 있었습니다.
  • 감정 표현: 아재개그를 하고 웃음을 표현하려 했지만, 완벽하지는 않았습니다.
  • 대화의 자연스러움: 대화 중 말을 끊고 새로운 질문을 할 수 있었으며, AI는 이에 대해 자연스럽게 대응했습니다.
  • 메모리 기능: AVM은 이전 대화 내용을 기억하고 접근할 수 있으며, 사용자 지정 지침도 활용할 수 있습니다.
  • 반응 속도: 데모에서 강조했던 만큼 극적으로 빠르지는 않았지만, 일반 음성 모드보다는 확실히 개선된 것 같았습니다.
  • 음악 관련 기능 제한: 생일 축하 노래를 부르도록 요청했을 때 AI는 이를 수행하지 않았습니다. 지난 5월에 OpenAI가 이 기능을 소개할 때는 음악 생성 기능이 포함되어 있었습니다. 그러나 현재 버전에서는 OpenAI가 창작자의 권리를 존중하기 위해 음악 콘텐츠 생성을 포함한 여러 제한을 둔 것으로 보입니다.

AVM의 사용에는 몇 가지 제한 사항이 있습니다. Plus 및 Team 사용자의 경우, 하루 사용 한도가 있으며 이는 변경될 수 있습니다. 사용 한도에 도달하면 대화가 즉시 종료되고 표준 음성 모드로 전환됩니다. 또한, 현재 AVM은 차량 블루투스나 스피커폰 사용에 최적화되어 있지 않아 이러한 환경에서는 사용이 제한적일 수 있습니다.

프라이버시 측면에서, AVM 대화의 오디오 클립은 채팅 기록과 함께 저장됩니다. 채팅을 삭제하면 관련 오디오 클립도 30일 이내에 삭제되는 정책을 채택하고 있습니다. 사용자는 '모든 사람을 위한 음성 개선' 설정을 통해 오디오 클립을 공유하여 모델 개선에 기여할 수 있지만, 이는 전적으로 사용자의 선택에 따릅니다.

현재 AVM에는 몇 가지 기술적 한계도 존재합니다. 예를 들어, 화면의 내용을 인식하거나 이메일 내용을 바탕으로 일정을 정리하는 등의 멀티모달 기능은 아직 구현되지 않았습니다.

결론적으로, ChatGPT의 고급 음성 모드(AVM)는 AI와 인간 간의 상호작용 방식을 한 단계 더 발전시키는 혁신적인 기술로 평가됩니다. 현재 버전에서도 자연스러운 대화, 다양한 음성 옵션, 사투리 구사 능력 등 인상적인 기능들을 선보이고 있지만, 시작에 불과할 것으로 보입니다. 앞으로 AVM이 어떻게 발전할지 기대가 큽니다. 멀티모달 기능의 추가, 더욱 정교한 감정 인식과 표현, 개선된 메모리 기능 등이 구현된다면 사용자 경험이 획기적으로 향상될 것입니다. 또한, 현재의 제한 사항들, 특히 음악 생성이나 저작권 관련 이슈들이 창의적으로 해결된다면 AVM의 활용 범위는 더욱 넓어질 것입니다.

아마 곧 이 기능을 활용한 다양한 재미난 사례들이 쏟아져 나올 것으로 예상됩니다. 사용자들이 AVM과 대화하며 발견한 흥미로운 응답들, 예상치 못한 상황에서의 AI의 반응, 혹은 AVM을 창의적으로 활용한 프로젝트들이 소셜 미디어를 통해 공유될 것입니다. 이러한 사례들은 AVM의 가능성을 더욱 넓히고, 개발자들에게 새로운 아이디어를 제공할 수 있을 것입니다.

물론 이 과정에서 프라이버시 보호, 윤리적 사용, 기술의 오남용 방지 등 여러 과제들이 제기될 것입니다.

결국 AVM은 단순한 음성 비서를 넘어, 우리의 일상과 업무 방식을 변화시킬 수 있는 잠재력을 가진 기술로 주목받고 있습니다. 앞으로 AVM이 어떻게 발전하고, 우리 삶에 어떤 영향을 미칠지 지켜보는 것은 매우 흥미로울 것입니다. AI 기술의 발전 속도를 고려할 때, 머지않아 우리는 더욱 놀라운 AVM의 모습을 만나게 될 것으로 기대됩니다.

반응형