최근 LMSYS Chatbot Arena에 정체불명의 언어 모델(LLM)이 등장했습니다. LMSYS Chatbot Arena는 대규모 언어 모델(LLM)의 성능을 평가하는 대규모 벤치마킹 플랫폼입니다. 이 플랫폼은 사용자가 두 개의 LLM이 생성한 응답을 비교하고 선호하는 응답을 선택하도록 요청하는 방식으로 작동합니다. 두 개의 모델은 무작위로 선택되어 제공됩니다. 모델은 GPT-4, Claude3, Gemini, llama 모델 등 39개의 모델들이 있습니다. 

이러한 평가를 통해 LMSYS Chatbot Arena는 각 LLM의 강점과 약점을 식별하고 Elo 레이팅 시스템을 사용하여 LLM의 전체 성능을 순위 지정합니다. 각종 LLM 모델이 새로 나올 때마다 벤치마크 점수는 높지만 실제 사용해 보면 기대에 못 미치는 경우가 많았기 때문에 등장했습니다.

그런데 이 벤치마킹 플랫폼에 'im-also-a-good-gpt2-chatbot'라는 모델이 등장했습니다. 이름만 보면 gpt2라고 보이는데, 이 모델은 GPT-4에 필적하는 성능을 보여주지만, 이름과는 달리 GPT-2와 관련이 없다고 합니다. 대신, 향상된 추론 능력과 인간 같은 대화로 인해 OpenAI의 차세대 모델인 GPT-4.5나 GPT-5일 가능성이 제기되고 있습니다. 또 OpenAI가 Q*(Q star)를 테스트하는 것일지 모른다는 예측도 있습니다. 이 미스터리한 모델을 사용하는 방법에 대해 소개하겠습니다.


'im-also-a-good-gpt2-chatbot' 모델을 사용하는 방법은 다음과 같습니다.

1. https://chat.lmsys.org/ 에 접속합니다. 

Gradio로 만들어진 페이지가 보입니다. Chatbot Arena는 사용자가 어떤 LLM을 평가하는지 알 수 없도록 Model A, Model B라고 익명으로 표현합니다. 이를 통해 사용자는 편견 없이 응답을 평가할 수 있습니다.

2. 프롬프트에 무작위로 작성

각 사용자는 무작위로 두 개의 서로 다른 LLM으로부터 응답을 평가하게 됩니다. 어떤 모델인지 확인할 수 없으므로, 프롬프트 입력창에 아무 글이나 입력하여 응답을 받습니다.

3. 모델 평가

하단에는 두 모델을 평가하기 위해 'A is better', 'B is better', 'Tie', 'Both are bad'라는 버튼이 나옵니다. 평가를 하면 모델명이 표기됩니다. 저는 'Tie' 버튼을 클릭했습니다.

4. 'im-also-a-good-gpt2-chatbot' 모델이 나올 때까지 반복 수행

'im-also-a-good-gpt2-chatbot'라는 모델명이 나올 때까지 페이지를 새로고침하여 반복합니다.

'im-also-a-good-gpt2-chatbot' 모델의 흥미로운 점은, 제가 "너는 누구니?"라고 질문했을 때 "안녕하세요! 저는 OpenAI가 개발한 대화형 인공지능, ChatGPT입니다."라고 응답한다는 것입니다. 모델의 정체성에 대한 궁금증을 더욱 증폭시킵니다.

한편, 'im-a-good-gpt2-chatbot'이라는 모델도 있습니다. 사용자들의 평가에 따르면, 'im-also-a-good-gpt2-chatbot' 모델이 'im-a-good-gpt2-chatbot' 모델보다 더 뛰어난 성능을 보여준다고 합니다.

이제 'im-also-a-good-gpt2-chatbot' 모델의 성능을 직접 실험해보겠습니다. 이 모델이 GPT-4에 필적하는 성능을 보여준다는 평가를 받고 있기에, 다양한 주제와 난이도의 질문을 통해 모델의 능력을 테스트해 볼 예정입니다.


테스트

#1 질문 : 강 건너기 문제 (늑대, 양, 풀)

정해진 용량의 운송수단으로 주어진 물체, 사람 등을 옮기는 유형의 문제입니다.

'im-also-a-good-gpt2-chatbot' 모델과 대결 상대인 'claude-3-sonnet-20240229' 모델은 모두 "강 건너기 문제(늑대, 양, 풀)"를 정확하게 해결했습니다. 그러나 'im-also-a-good-gpt2-chatbot' 모델의 답변 구조를 보면 단순히 GPT-2 모델이라고 하기에는 매우 뛰어난 성능을 보여줍니다. 흥미로운 사실은 이 문제가 GPT-4가 출시되었을 때, GPT-3.5와 비교하여 얼마나 성능이 향상되었는지 소개하면서 테스트했던 문제입니다. 당시 GPT-3.5는 이 문제를 틀렸던 반면, 'im-also-a-good-gpt2-chatbot' 모델은 정확하게 해결했습니다. 이는 이 모델이 GPT-2라고 하기에는 더욱 믿기 어려운 수준의 성능을 보여준다는 것을 의미합니다.

#2 질문 : 외판원 문제 (Traveling Salesman Problem, TSP)

여행 판매원 문제는 인기 있는 수학 문제로, n개의 도시들 사이의 거리가 주어지고 모든 도시를 정확히 한 번씩 돌아 제자리로 돌아와야 하는데 지점과 거리를 고려하여 가장 효율적인 궤도를 구하는 문제입니다.

'im-also-a-good-gpt2-chatbot' 모델과 'claude-3-sonnet-20240229' 모델 모두 "외판원 문제(TSP)"를 정확하게 해결했습니다. 이 역시 과거 GPT-3.5가 이 문제를 틀렸던 것과 대조적입니다. 특히 주목할 만한 점은 'im-also-a-good-gpt2-chatbot' 모델의 답변 구조가 매우 정돈되어 있다는 것입니다.

#3. 알고리즘 문제

'im-also-a-good-gpt2-chatbot' 모델의 성능을 더욱 깊이 있게 평가하기 위해 다양한 난이도의 알고리즘 문제를 제시했습니다. 일반적으로 GPT-4나 Claude 3와 같은 최신 언어 모델들은 난이도가 낮은 알고리즘 문제는 잘 해결하는 편입니다. 그러나 난이도가 상당히 높은 문제들에 대해서는 대부분 틀리거나 제한된 연산 시간을 초과하거나 메모리를 초과하는 경향이 있었습니다.

그런데 이번 'im-also-a-good-gpt2-chatbot' 모델은 이전 모델들이 해결하지 못했던 난이도 높은 알고리즘 문제 중 일부를 성공적으로 해결했습니다. 이는 매우 흥미로운 결과로, 'im-also-a-good-gpt2-chatbot' 모델의 알고리즘 이해 능력과 문제 해결 능력이 기존 모델들보다 크게 향상되었음을 시사합니다. 이러한 결과는 'im-also-a-good-gpt2-chatbot' 모델이 단순히 GPT-2의 변형이 아닌, 훨씬 더 발전된 차세대 언어 모델일 가능성을 더욱 높여줍니다.


'im-also-a-good-gpt2-chatbot' 모델의 정체성에 대한 궁금증은 여전히 남아있습니다. 이유는 알 수 없지만, 이 모델은 4월 27일에 LMSYS Chatbot Arena에 처음 등장했고, 4월 30일에는 샘 알트먼이 트위터(현재는 X)에 "i do have a soft spot for gpt2"라는 글을 작성했습니다. 또한 5월 2일에는 모델이 잠시 온라인에서 사라졌다가 다시 등장했을 때 'im-a-good-gpt2-chatbot'이라는 글을 작성하기도 했습니다. 현재 이에 대해 OpenAI는 어떠한 논평도 거부하고 있습니다.

한편 OpenAI는 GPT-5를 빠르면 올여름에 발표할 것이라는 소식이 들려오고 있으며, 지속적으로 새로운 언어 모델 개발을 준비하고 있는 것으로 보입니다. 'im-also-a-good-gpt2-chatbot' 모델의 놀라운 성능과 OpenAI의 GPT-5 개발 계획은 인공지능 분야의 발전 속도가 가속화되고 있음을 보여줍니다. 앞으로 등장할 차세대 언어 모델들이 어떤 혁신을 가져올지 매우 기대됩니다.


(추가 : 2024-05-13) 그런데 알고 보니 'im-also-a-good-gpt2-chatbot' 모델은 사실 OpenAI가 GPT-4o의 베타 버전을 LMSYS Chatbot Arena에서 테스트한 것이었습니다. 당시 많은 사람들이 이 모델의 정체에 대해 궁금해했는데, 이제 그 비밀이 밝혀진 셈이죠. 'im-also-a-good-gpt2-chatbot'의 놀라운 성능은 GPT-4o의 잠재력을 미리 보여주는 것이었습니다. GPT-4o의 공식 출시로 인해, 이전에 기대했던 GPT-5의 일부 기능이 먼저 적용된 것으로 보입니다. 이는 GPT-5에 대한 기대감을 한층 더 높이고 있습니다. GPT-4o에서 선보인 멀티모달 기능, 빠른 응답 속도, 자연스러운 대화 능력 등은 GPT-5에서 어떤 형태로 진화할지 상상하게 만듭니다.

 

GPT-4o 사용법: OpenAI의 새로운 혁신

오늘 5월 13일 현지시각(한국시간 14일 새벽 2시), OpenAI에서는 스프링 제품 업데이트 라이브 스트리밍 이벤트를 진행했습니다. 이 자리에서 발표된 것이 바로 GPT-4o입니다. GPT-4o는 기존 GPT-4 Turbo 모

yunwoong.tistory.com

반응형