오늘 5월 13일 현지시각(한국시간 14일 새벽 2시), OpenAI에서는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 것이 바로 GPT-4o입니다. GPT-4o는 기존 GPT-4 Turbo 모델의 성능을 넘어서는 동시에, 오디오와 이미지까지 처리할 수 있는 멀티모달 AI 모델로 주목받고 있습니다.

이번 발표에 앞서 OpenAI의 CEO 샘 알트먼은 지난 5월 11일, 마치 마법 같은 새로운 것을 예고하는 트윗을 남긴 바 있습니다. 그리고 그 '마법 같은 것'이 바로 GPT-4o였던 것이죠.

사실 GPT-4o는 이미 지난 4월 27일, LMSYS Chatbot Arena에서 "im-also-a-good-gpt2-chatbot"이라는 이름으로 등장했고, 많은 사람들이 이 모델에 대해 궁금해했습니다. 당시만 해도 정체불명의 언어 모델로 알려졌던 이 모델이 GPT-4o였던 것입니다.

이번 글에서는 GPT-4o가 무엇인지, 어떤 특징과 장점을 가지고 있는지, 그리고 실제로 어떻게 사용할 수 있는지 자세히 알아보도록 하겠습니다. GPT-4o가 가져올 AI 기술의 혁신과 우리 삶에 미칠 영향에 대해서도 함께 생각해 보는 시간이 되었으면 합니다.


사용방법

ChatGPT에서 GPT-4o를 사용하는 방법부터 알아보겠습니다. 현재 저는 ChatGPT에 접속하니 안내와 함께 ChatGPT-4o 선택이 가능합니다. Free 티어 사용자는 GPT-4o를 기본값으로 사용하지만, 메시지 수에 제한이 있습니다. 사용량과 수요에 따라 제한이 달라질 수 있으며, 사용할 수 없는 경우 GPT-3.5로 전환됩니다. 또한 데이터 분석, 파일 업로드, 브라우징, GPT 발견 및 사용, 비전 등 고급 도구 사용에도 제한이 있습니다. 무료로 사용하는 경우에는 이러한 제한 사항이 있지만, 그래도 GPT-4o의 강력한 성능을 경험해 볼 수 있습니다.

ChatGPT Plus와 Team 구독자는 chatgpt.com에서 더 큰 사용량 제한으로 GPT-4와 GPT-4o에 액세스 할 수 있습니다. 페이지 상단의 드롭다운 메뉴에서 GPT-4o를 선택할 수 있죠. 2024년 5월 13일 기준, Plus 사용자는 3시간마다 GPT-4o에서 최대 80개, GPT-4에서 최대 40개의 메시지를 보낼 수 있습니다.
ChatGPT Enterprise 고객은 아직은 사용이 불가하지만 곧 GPT-4o에 액세스 할 수 있을 것이라고 합니다. 새로운 대화는 기본적으로 GPT-4o로 설정되며, 다른 모델도 선택 가능합니다.
OpenAI API를 통해서도 GPT-4o를 사용할 수 있습니다. API 계정을 만들고 $5 이상을 결제하면 GPT-4, GPT-4 Turbo, GPT-4o 모델에 액세스 할 수 있습니다. GPT-4o는 Chat Completions API, Assistants API, Batch API에서 사용 가능하며, Function calling과 JSON 모드도 지원합니다. Playground를 통해서도 테스트할 수 있습니다. 현재 모델은 'gpt-4o'와 'gpt-4o-2024-05-13' 모델이 추가로 보입니다.


GPT-4o의 특징과 성능

GPT-4o는 인간과 컴퓨터 간의 훨씬 더 자연스러운 상호작용을 향한 발걸음입니다. "o"는 "omni"를 의미하는데, 이는 GPT-4o가 텍스트, 오디오, 이미지 등 모든 형태의 입력을 받아들이고, 또한 모든 형태의 출력을 생성할 수 있음을 나타냅니다. 놀랍게도 GPT-4o는 오디오 입력에 평균 320밀리 초, 최소 232밀리 초 만에 응답할 수 있습니다. 이는 인간의 대화 응답 시간과 유사한 수준이죠.
GPT-4o는 영어 텍스트와 코드에서 GPT-4 Turbo와 동등한 성능을 보이면서도, 비영어 텍스트에서는 상당한 개선을 보여줍니다. 게다가 훨씬 빠르고 API 비용은 50%나 저렴하죠. 특히 GPT-4o는 기존 모델에 비해 시각과 청각 이해 능력이 뛰어납니다.
GPT-4o 이전에는 Voice Mode를 사용하여 ChatGPT와 대화할 수 있었지만, GPT-3.5는 평균 2.8초, GPT-4는 평균 5.4초의 지연 시간이 있었습니다. 이유는 먼저 SST(Speech-to-Text)로 사용자의 Voice를 Text로 변환하고 GPT에 전달 후 생성된 Text를 다시 Voice로 출력했기 때문입니다. 이러한 과정에서 시간 지연이 발생했습니다.

하지만 GPT-4o는 텍스트, 비전, 오디오를 아우르는 단일 모델로 훈련되었기 때문에, 모든 입출력이 동일한 신경망에 의해 처리됩니다. 이로 인해 어조, 다중 화자, 배경 소음 등을 직접 관찰할 수 있고, 웃음, 노래, 감정 표현 등도 출력할 수 있게 되었죠.

OpenAI는 GPT-4o의 다양한 능력을 시연하는 데모 영상을 공개했습니다. 두 GPT-4o가 상호작용하며 노래하는 모습, 면접 준비, 가위바위보 게임, 풍자, 수학풀이, 스페인어 배우기, AI 회의, 실시간 번역, 고객 서비스 개념 증명, 생일 축하 등 다양한 시나리오를 소개하고 있습니다.

데모만 보더라도 GPT-4o 답변 중에 말을 끊을 수도 있고 동일한 화면을 보면서 이야기를 나눌 수 있습니다. 기존 Voice Mode는 단순히 텍스트를 TTS(Text-to-Speech) 하는 수준이었는데, 대답이 자연스러워졌을 뿐만 아니라 심지어 감정까지 표현할 수 있습니다. 잠잘 때 동화를 만들어달라는 요청부터 로봇 소리로 바꿔달라, 강렬한 드라마처럼 표현해 달라는 요청에 즉각 반응했습니다. GPT-4o는 작성 중인 코드를 보고 코드를 분석했습니다. 잠재적인 문제를 발견할 수 있었으며 현재 데스크톱에서 작업 중인 내용도 설명할 수 있었죠. 데모 중에 그래프를 보고 실제 피드백과 정보를 제공하는 놀라운 장면을 연출합니다. 이런 장면을 보고 있으면 정말 친구와 화상통화를 하는 느낌을 받았습니다.


지금 수많은 LLM 모델이 쏟아지고 너도나도 GPT-4를 뛰어넘었다며 열을 올리고 있었는데, OpenAI는 다시 한번 AI 분야에서 왜 자신들이 선두주자인지를 증명했습니다. 사실 현재 생성형 AI를 이용한 다양한 서비스는 과거 챗봇보다 똑똑한 채팅을 이용한 봇 같은 느낌이었는데, 이번 업데이트를 통해 사용성이 매우 좋아졌습니다. 나아가 아이언맨의 자비스의 느낌이 들기도 하고, 현재 그 수준은 아니더라도 그 가능성을 보이기 시작했습니다. GPT-4o는 사람이 컴퓨터와 상호작용하는 방식에 있어 큰 발전을 가져다줄 것입니다. 음성, 시각, 텍스트를 아우르는 멀티모달 기능, 빠른 응답 속도, 자연스러운 대화 능력 등은 사용자 경험을 한 차원 높일 것으로 기대됩니다.
GPT-4o의 놀라운 성능과 잠재력을 보면서, 샘 알트먼 CEO가 GPT-4o를 마법 같다고 표현한 이유를 알 것 같습니다. GPT-4o는 인간과 컴퓨터의 상호작용을 한 단계 진화시키며, 우리가 상상하던 AI의 모습을 현실로 만들어가고 있기 때문입니다.
이번 업데이트는 AI 기술의 발전 방향을 제시하고, 우리 삶에 미칠 영향을 가늠케 하는 중요한 이정표가 될 것입니다. OpenAI가 선보인 GPT-4o는 인간-컴퓨터 상호작용의 새로운 지평을 열어줄 것으로 기대되며, 앞으로의 발전 과정이 더욱 기대됩니다.

반응형