2024년 9월 12일, OpenAI는 혁신적인 인공지능 모델 시리즈 GPT-o1을 발표했습니다. 이 모델은 ‘스트로베리’라는 별칭으로 불리며, GPT-4 시리즈와는 확연히 다른 특성을 지닌 새로운 모델입니다. 특히 과학, 코딩, 수학과 같은 복잡한 추론 작업에 최적화되어 있으며, 이러한 특수 분야에서 인간 전문가 수준의 성과를 낼 수 있는 인공지능입니다.
GPT-o1 작동원리
GPT-o1의 핵심적인 차별점은 추론 기반 접근입니다. 이 모델은 문제를 해결하기 전, 더 많은 시간을 투자해 생각하는 과정을 거치도록 훈련되었습니다. GPT-4o가 입력된 프롬프트에 대해 즉각적인 답변을 내놓는 반면, GPT-o1은 더 깊이 있는 분석과 추론을 위해 약 10초 더 시간을 소모할 수 있습니다. 이는 곧 정확성과 복잡한 문제 해결 능력의 향상으로 이어집니다.
일반적인 정보 제공과 같이 즉각적인 응답이 중요한 상황에서는 GPT-4o가 더 유리할 수 있습니다. 그러나 수학적 추론이나 복잡한 과학적 문제 해결과 같은 영역에서는 GPT-o1의 성능이 훨씬 뛰어난 것으로 확인되었습니다. 이로 인해 GPT-o1은 고난이도의 문제 해결 능력이 필요한 작업에서 주목받고 있습니다.
GPT-o1의 성능은 미국 고등학생 수학 올림피아드 AIME를 통해 확인되었습니다. GPT-o1은 훈련 시간이 길어질수록 정확도가 높아지는 경향을 보였습니다. 이는 추론 시간이 길어질수록 모델이 더 좋은 성과를 낸다는 사실을 입증한 결과입니다.
예를 들어, GPT-4o는 AIME 문제의 약 13.4%를 해결하는 데 그쳤지만, GPT-o1 Preview는 56.7%, 정식 GPT-o1은 83.3%의 문제를 해결하는 놀라운 성과를 보여주었습니다. 이는 GPT-o1이 단순한 문제 풀이 능력을 넘어, 복잡한 수학적 문제 해결 능력에서 탁월한 성과를 내고 있음을 의미합니다.
GPT-o1 종류
현재 GPT-o1 시리즈는 세 가지 버전으로 제공됩니다:
- GPT-o1: 정식 버전으로, 고난이도의 추론 작업에 최적화된 모델입니다.
- GPT-o1 Preview: 제한된 사용자에게 제공되는 프리뷰 버전으로, ChatGPT Plus 및 Team 사용자에게 접근이 가능합니다.
- GPT-o1 Mini: 경량화된 모델로, 보다 빠르고 간편한 작업을 위해 개발된 버전입니다.
정식 버전의 GPT-o1은 아직 대중에게 공개되지 않았으나, Preview 버전은 일부 사용자들이 이미 접근할 수 있습니다. 특히 개발자들을 위해 ChatGPT API가 제공되고 있으며, 티어5 개발자들은 분당 20개의 요청(RPM)으로 제한된 상태에서 사용할 수 있습니다. 이는 추후 확장될 가능성이 있습니다.
GPT-o1 성능
GPT-o1의 성능은 단순한 수학 문제 해결 능력뿐 아니라 여러 분야에서 확인되었습니다.
과학 분야 테스트: 또한 화학, 물리, 생물학 분야의 전문성을 평가하는 GPQA 다이아몬드 벤치마크에서는 GPT-o1이 78%의 점수를 받아, 인간 전문가의 평균 점수인 69.7%를 초과하는 결과를 보여줬습니다.
코딩 테스트: GPT-o1은 CodeForces라는 코딩 플랫폼에서 테스트되었으며, 이곳에서 89%의 점수를 기록했습니다. 이는 GPT-4o의 11%와 비교하면 GPT-o1이 복잡한 코드 문제를 얼마나 잘 처리하는지 보여줍니다.
이러한 성과는 GPT-o1이 코딩, 수학, 과학 등 다양한 전문 지식과 복잡한 추론이 필요한 작업에서 탁월한 성과를 발휘할 수 있음을 입증합니다. 특히, 인간 전문가 수준 이상의 결과를 기록하며 AI 기술의 새로운 가능성을 보여주고 있습니다.
GPT-4o 비교
GPT-4o와 GPT-o1을 비교했을 때, 분야별로 성능 차이가 뚜렷합니다.
글쓰기 및 편집: 텍스트 작성이나 문서 편집 같은 작업에서는 GPT-4o와 비슷하거나 약간 떨어지는 성능을 보입니다. 이는 GPT-o1이 복잡한 추론에 더 중점을 두고 설계되었기 때문입니다.
코딩, 데이터 분석, 수학: 반면에, 컴퓨터 프로그래밍, 데이터 분석, 수학적 계산과 같은 분야에서는 GPT-o1이 GPT-4o를 압도하는 성능을 보입니다. 이는 GPT-o1이 단계적 추론을 통해 복잡한 문제를 풀 수 있는 능력에서 차별성을 갖고 있음을 보여줍니다.
추론 토큰 방식
GPT-o1의 또 다른 특징은 추론 토큰이라는 개념입니다. 이 모델은 사용자가 입력한 데이터를 단순히 분석하는 것이 아니라, 입력값과 결과값을 바탕으로 여러 단계를 거쳐 추론을 수행합니다. 이 과정에서 여러 번의 추론 단계를 거치며, 최종적인 답을 도출한 후 중간 추론 단계에서 생성된 토큰은 삭제됩니다.
이로 인해 GPT-o1은 더 정교한 분석과 깊이 있는 답변을 제공합니다. 하지만 이러한 방식은 기존 모델보다 더 많은 토큰 비용이 발생할 가능성이 큽니다. GPT-4o에서는 하나의 질문에 하나의 토큰만 사용되었으나, GPT-o1은 중간 추론 단계에서도 토큰이 사용되기 때문에 추가적인 비용이 발생할 수 있습니다.
프롬프트 엔지니어링의 변화
GPT-o1은 복잡한 문제 해결에 강점이 있지만, 기존 프롬프트 엔지니어링과는 다른 접근이 필요합니다. OpenAI에 따르면, GPT-o1은 단순한 프롬프트에서 더 나은 성능을 발휘합니다.
복잡하고 정교한 프롬프트 설계가 오히려 답변의 정확성을 저하시킬 수 있습니다.
생각의 사슬 프롬프트
OpenAI는 GPT-o1에서 Chain of Thought 방식의 질문을 허용하지 않으며, 이를 시도할 경우 모델 접근 권한이 차단될 수 있다고 경고했습니다.
이는 GPT-o1의 중간 알고리즘 단계가 유출되는 것을 방지하기 위한 전략으로 해석됩니다.
GPT-o1의 미래와 활용 가능성
GPT-o1은 복잡한 문제를 해결하는 데 있어 새로운 접근 방식을 제공하는 모델로, 다양한 분야에서 AI 기술의 혁신을 이끌어갈 것으로 기대됩니다. 수학적 추론, 코딩, 과학적 분석 등에서 탁월한 성능을 발휘하는 이 모델은 특히 전문가 수준의 문제 해결을 요구하는 작업에서 유용할 것입니다.
다만, 이 모델의 사용은 더 많은 토큰과 비용을 요구할 수 있으며, 이를 활용하는 프롬프트 엔지니어링 전략에도 변화가 필요합니다. GPT-o1은 심층 추론을 통해 최종 결과를 도출하는 과정에서 기존 AI 모델과 차별화된 강점을 보이며, 앞으로 더 많은 분야에서 그 가능성을 확장해 나갈 것입니다.