Google I/O 2024가 시작되기 하루 전, OpenAI는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 GPT-4o는 충격 그 자체였습니다. 멀티모달 기능, 빠른 응답 속도, 자연스러운 대화 능력 등 GPT-4o의 성능은 많은 이들을 깜짝 놀라게 했죠. 너무나 충격적이어서 다음 날 열리는 Google I/O에 대한 기대감과 함께 약간의 걱정도 있었습니다.

하지만 Google I/O 2024에서 구글은 플랫폼 회사로서의 저력을 유감없이 발휘했습니다. Google Workspace, Android OS, Google Search, Gmail, Google Maps 등 수많은 서비스와 제품을 보유한 구글은 단순히 GPT-4o와 경쟁하는 것이 아니라, 제미나이를 통해 자사의 생태계 전반에 AI 기술을 적용하는 모습을 보여주었습니다.

또한 트릴리움(Trillium)이라는 6세대 TPU를 발표하며 AI 분야에서의 하드웨어 리더십도 과시했습니다. 트릴리움은 이전 세대 대비 4.7배나 향상된 성능을 자랑하며, 2024년 말 구글 클라우드 고객에게 제공될 예정입니다. 여기에 엔비디아와의 파트너십을 통해 차세대 GPU인 블랙웰(Blackwell)도 지원할 계획이라고 하니, 구글의 AI 인프라는 더욱 탄탄해질 것으로 보입니다.

개인적인 의견으로는 이번 Google I/O 2024는 매우 훌륭한 행사였다고 생각합니다. OpenAI의 GPT-4o 발표에 따른 위기감을 오히려 기회로 삼아, 구글만의 강점을 살린 AI 비전을 제시했기 때문입니다. 플랫폼의 힘, 그리고 오랜 시간 쌓아온 AI 기술력이 어우러진 이번 행사는 구글이 AI 시대에도 여전히 선두주자로 남을 것임을 예고하는 듯했습니다. 그렇다면 이번 Google I/O 2024에서는 어떤 내용들이 발표되었는지, 구글의 AI 기술인 제미나이를 중심으로 다양한 제품과 서비스에 적용된 혁신 사례들을 살펴보겠습니다.


Gemini 모델의 최신 업데이트

속도와 효율성을 겸비한 Gemini 1.5 플래시

구글 딥마인드는 이번 Google I/O 2024에서 Gemini 모델의 최신 업데이트를 발표했습니다. 기존의 Gemini 1.0 울트라, 프로, 나노에 이어 새롭게 선보인 것은 Gemini 1.5 플래시(Flash)입니다. 1.5 플래시는 1.5 프로보다 가벼운 모델로, 대규모 작업에서 빠르고 효율적인 서비스를 제공하도록 최적화되었습니다. 1.5 프로의 지식과 기술을 1.5 플래시에 전달하는 '증류(distillation)' 과정을 통해 훈련되었기에, 멀티모달 추론 능력과 100만 토큰의 긴 컨텍스트 윈도우 등 주요 기능을 그대로 유지하면서도 더욱 compact한 모델로 탄생했습니다.

Gemini 1.5 프로의 대폭 개선

기존의 Gemini 1.5 프로 모델도 크게 개선되었습니다. 컨텍스트 윈도우가 무려 200만 토큰으로 확장되었으며, 코드 생성, 논리적 추론, 계획 수립, 멀티턴 대화, 오디오 및 이미지 이해 등 다양한 작업에서의 성능이 향상되었습니다. 이제 1.5 프로는 역할, 형식, 스타일 등 제품 수준의 동작을 지정하는 복잡하고 뉘앙스 있는 지침도 잘 따를 수 있게 되었죠. Gemini API와 Google AI 스튜디오에 오디오 이해 기능이 추가되어, Google AI 스튜디오에 업로드된 동영상의 이미지와 오디오를 통합적으로 추론할 수 있습니다


이미지 입력까지 확장된 Gemini 나노

Gemini 나노는 기존의 텍스트 입력을 넘어 이미지 입력까지 확장되었습니다. 픽셀을 시작으로, Gemini 나노의 멀티모달 기능을 사용하는 애플리케이션은 텍스트뿐만 아니라 시각, 소리, 음성 언어를 통해 사람처럼 세상을 이해할 수 있게 될 것입니다.

범용 AI 에이전트 개발의 진전

구글 딥마인드는 범용 AI 에이전트 개발에서의 진전 사항도 공유했습니다. 프로젝트 아스트라(Astra)는 Gemini를 기반으로 개발된 프로토타입 에이전트로, 동영상 프레임을 지속적으로 인코딩하고 동영상과 음성 입력을 이벤트 타임라인으로 결합하며 이 정보를 효율적으로 활용함으로써 정보 처리 속도를 높였습니다. 음성 모델을 활용해 더 다양한 억양을 구사할 수 있게 되었죠. 이러한 기술을 통해 전문가 수준의 AI 어시스턴트가 휴대폰이나 안경을 통해 사람들 곁에 있는 미래를 상상할 수 있습니다.

프로젝트 아스트라(Astra)는 확실히 어제 OpenAI의 GPT-4o 시연에 비하면 충격이 덜한 것이 사실입니다. 반응 속도도 GPT-4o보다 느린 듯한 인상을 주었죠. 하지만 구글 글라스를 착용하고 선보인 시연은 구글만의 강점을 충분히 보여주었습니다. 바로 구글이 이미 갖추고 있는 막강한 플랫폼이죠. 구글은 Android OS, Google Workspace, Google Search 등 이미 수많은 사용자를 보유한 서비스와 제품을 보유하고 있습니다. 이러한 플랫폼과 Gemini를 결합함으로써, 구글은 단순히 GPT-4o와 경쟁하는 것이 아니라 자사의 생태계 전반에 AI 기술을 녹여내는 전략을 취하고 있는 것으로 보입니다. 프로젝트 아스트라에서 선보인 것처럼, Gemini와 Google 글라스의 조합은 사용자 곁에 항상 존재하는 AI 어시스턴트의 가능성을 보여주었죠.


Gemma 2: 차세대 오픈 소스 AI 모델의 등장

Gemini 모델과 동일한 연구 및 기술을 기반으로 구축된 오픈 소스 모델 패밀리인 Gemma의 업데이트를 공유했습니다. 특히 눈에 띄는 것은 차세대 오픈 모델인 Gemma 2의 발표입니다. Gemma 2는 혁신적인 성능과 효율성을 위해 설계된 새로운 아키텍처를 기반으로 하며, 다양한 크기로 제공될 예정입니다.

Gemma 패밀리는 PaLI-3에서 영감을 받아 개발된 첫 번째 비전-언어 모델인 PaliGemma의 추가로 더욱 확장되었습니다. 구글은 모델 응답의 품질을 평가하기 위한 LLM Comparator를 통해 책임감 있는 생성형 AI 도구 키트도 업그레이드했습니다. 이 외에도 다양한 Gemma 모델들이 소개되었습니다. 경량의 텍스트 대 텍스트 디코더 전용 대규모 언어 모델인 Gemma는 다양한 자연어 처리 작업을 위해 텍스트, 코드, 수학 콘텐츠로 구성된 방대한 데이터 세트로 학습되었습니다. CodeGemma는 강력한 코드 완성 및 생성 기능을 로컬 컴퓨터에 맞게 제공하며, RecurrentGemma는 순환 신경망과 로컬 어텐션을 활용해 메모리 효율성을 개선한 기술적으로 고유한 모델입니다.

Gemma 모델들의 이러한 발전은 구글이 오픈 소스 AI 모델 개발에도 큰 힘을 쏟고 있음을 보여줍니다. Gemini와 같은 최첨단 모델의 연구 성과를 오픈 소스 커뮤니티와 공유함으로써, 구글은 책임감 있는 AI 혁신을 위한 협력의 장을 마련하고 있습니다.


그 밖의 AI 모델 업데이트

구글은 Gemini와 Gemma 외에도 다양한 AI 모델의 업데이트를 선보였습니다. OpenAI의 Sora에 대응하는 비디오 생성 모델인 비오(Veo)와 Dall-E 3에 맞서는 이미지 생성 모델 이마젠 3(Imagen 3)도 주목할 만한 업데이트였습니다. 비오는 텍스트 프롬프트를 기반으로 고품질의 비디오를 생성할 수 있는 모델입니다. 현재는 아직 개발자들이 직접 사용할 수는 없지만, 대기자 목록(waitlist)에 등록할 수 있습니다. 이를 통해 비오의 베타 버전이 출시되면 가장 먼저 액세스 할 수 있는 기회를 얻을 수 있습니다. 이마젠 3는 이전 버전보다 더욱 향상된 이미지 생성 능력을 자랑합니다. 이러한 모델들의 발전은 구글이 다양한 도메인에서 AI 기술을 선도하고 있음을 보여주고 있습니다.

 

Veo

Veo is our most capable video generation model to date. It generates high-quality, 1080p resolution videos that can go beyond a minute, in a wide range of cinematic and visual styles.

deepmind.google


개발자를 위한 AI 혁신 도구

Google I/O는 개발자 컨퍼런스인 만큼, 구글은 개발자들이 보다 쉽게 AI 기술을 활용할 수 있도록 다양한 도구와 리소스를 제공하고 있습니다. Gemma 모델의 경우, Kaggle 모델 페이지를 통해 빠른 시작 가이드, 코드 예시, 토론 등을 확인할 수 있습니다. 이를 통해 개발자들은 Gemma를 자신의 프로젝트에 손쉽게 적용할 수 있습니다. 또한 Google Cloud에서는 Gemma를 엔드 투 엔드 TPU에 최적화하여 시장을 선도하는 성능과 비용 효율성을 제공합니다. 개발자들은 Vertex AI를 통해 Gemma를 쉽게 학습하고 배포할 수 있습니다. 뿐만 아니라, Keras 3을 통해 JAX로 Gemma 모델을 미세 조정할 수 있는 기능도 제공됩니다. 이를 통해 개발자들은 원하는 백엔드 프레임워크를 사용하여 Gemma를 자신의 도메인과 데이터에 맞게 커스터마이즈 할 수 있습니다.

 

Gemma - Google의 경량형 최첨단 개방형 모델 제품군  |  Google for Developers

오픈소스 경량 언어 모델 제품군인 Gemma를 소개합니다. 빠른 시작 가이드, 벤치마크, Google Cloud에서 학습 및 배포를 살펴보고 커뮤니티에 참여하여 AI 연구를 발전시키세요.

ai.google.dev

이처럼 구글은 개발자 친화적인 도구와 플랫폼을 통해 AI 기술의 대중화와 접근성 향상에 기여하고 있습니다.


생성형 AI 검색(SGE)

구글은 지난 1년 동안 수십억 개의 쿼리에 대해 생성형 AI 검색(SGE)을 통해 답변을 제공해 왔습니다. 이용자들은 SGE를 통해 완전히 새로운 방식으로 검색을 경험하고 있습니다. 단순히 웹 페이지를 찾아주는 것을 넘어, 이용자의 질문에 대한 직접적인 답변을 생성해 주는 SGE는 검색의 패러다임을 바꾸고 있습니다. 특히 SGE는 이용자들이 보다 자연스러운 언어로 복잡한 질문을 할 수 있게 해 주었습니다. 전통적인 키워드 기반 검색으로는 다소 어려웠던 부분입니다. 뿐만 아니라 SGE는 이미지와 같은 비텍스트 데이터도 검색에 활용할 수 있어, 멀티모달 검색 경험을 제공합니다.


구글은 SGE의 성능과 이용자 경험을 지속적으로 개선해 나가고 있습니다. 생성형 AI 검색(SGE)의 등장은 단순히 구글 검색의 개선에 그치는 것이 아닙니다. 검색 엔진의 역할과 가능성에 대한 우리의 인식 자체를 변화시키고 있습니다. SGE는 이용자의 복잡한 질문에 대해 직접적이고 맥락적인 답변을 생성함으로써, 검색이 단순히 정보를 찾아주는 도구를 넘어 지식을 창조하고 소통하는 매개체로 진화할 수 있음을 보여줍니다.


이전 글에 '세계를 이끄는 빅6 AI 기업'을 소개할 때 온디바이스 AI 분야에서 Google이 선점하고 있다고 언급한 바 있습니다. Gemini는 Google의 방대한 플랫폼과 결합하여 사용자 경험을 한 차원 높일 것으로 기대되며, 생성형 AI 검색(SGE)과 같은 혁신은 검색의 패러다임 자체를 바꿔놓을 것입니다. Google I/O 2024는 AI 기술의 현재와 미래를 조망할 수 있는 중요한 자리였습니다. Google의 AI 기술이 우리의 일상과 산업 전반에 가져올 변화가 기대되는 가운데, 이번 행사는 AI 시대를 이끌어갈 Google의 비전과 전략을 엿볼 수 있는 기회였습니다.

 

세계를 이끄는 빅6 AI 기업 (2024년 4월 기준)

2022년 11월 30일, ChatGPT의 출시와 함께 인공지능 분야에 새로운 장이 열렸습니다. 이후 1년 4개월이 지난 지금, 우리는 기술 발전의 전쟁터에 서 있습니다. 인공지능은 단순한 기술 발명을 넘어서,

yunwoong.tistory.com

반응형