OpenAI GPT-5.5 출시 총정리: “새로운 차원의 지능”이 왔다
와… 오늘 OpenAI가 진짜 큰 걸 내놨습니다.
GPT-5.5가 공식 출시됐습니다. OpenAI는 이번 모델을 “A new class of intelligence(새로운 차원의 지능)”이라고 소개했는데요. 과연 그 정도인지, 핵심만 빠르게 정리해보겠습니다.
🚀 GPT-5.5, 뭐가 달라졌나?
GPT-5.5는 OpenAI 역대 가장 강력한 에이전틱 코딩 모델입니다. 코딩, 리서치, 데이터 분석 전 영역에서 이전 모델을 압도하는 성능을 보여줍니다.
가장 눈에 띄는 특징은 토큰 효율성입니다. GPT-5.4와 체감 속도(Latency)는 같으면서 토큰은 훨씬 적게 쓴다는 점입니다. 같은 작업을 더 적은 리소스로 해낸다는 뜻이죠.
OpenAI 사장 그렉 브록만(Greg Brockman)은 GPT-5.5가 “훨씬 직관적으로 사용할 수 있고, 더 적은 가이드로 더 많은 것을 해낸다”고 밝혔습니다.
📊 벤치마크 성능 비교
숫자로 보면 GPT-5.5의 성능 향상이 확실히 체감됩니다.
| 벤치마크 | GPT-5.5 Thinking | GPT-5.4 Thinking | GPT-5.5 Pro | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | — | — | 69.4% | 68.5% |
| GDPval | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | — | — | 78.0% | — |
| Toolathon | 55.6% | 54.6% | — | — | — | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| CyberGym | 81.8% | 79.0% | — | — | 73.1% | — |
거의 모든 벤치마크에서 GPT-5.5가 경쟁 모델들을 압도하고 있습니다. 특히 BrowseComp에서 90.1%, GDPval에서 84.9%라는 수치가 인상적입니다.
💻 코덱스(Codex) 얼리 액세스: 풀스택 빌더의 탄생
GPT-5.5를 코덱스(Codex) 환경에서 직접 테스트해 본 결과, GPT-5.4와의 격차는 말 그대로 ‘차원이 달랐습니다’.
예전에는 불가능했던 복잡한 작업들이 이제 단 한 번의 프롬프트(Zero-shot)만으로 해결됩니다. 코딩 중에 시각적 에셋(Visual assets)을 즉석에서 생성해 디자인까지 한 번에 통합해 버립니다.
AI는 이제 보조 도구가 아니라 완전한 풀스택 빌더(Full-stack builder)로 진화했습니다.
공식 시연에서도 NASA 데이터를 활용한 우주 임무 앱(Space mission app), 지진 추적기(Earthquake tracker), 던전 게임(Dungeon game), 3D 총게임까지 완벽하게 구현하는 모습을 보여줬습니다. 과거에는 불가능했던 복잡한 웹 UI와 디자인 통합이 이제는 숨 쉬듯 자연스럽게 이루어집니다.
🧬 지식 노동(Knowledge Work)의 혁신
코딩뿐만이 아닙니다. GPT-5.5는 컴퓨터를 직접 조작하고 데이터를 분석하는 ‘지식 노동(Knowledge work)’에서 경이로운 성과를 냅니다.
직업별 지식 노동을 평가하는 GDPval에서 84.9%, 실제 컴퓨터 환경을 조작하는 OSWorld-Verified에서 78.7%, 고객 서비스 워크플로우를 테스트하는 Tau2-bench Telecom에서 프롬프트 튜닝 없이 98.0%를 기록했습니다.
실제 사례도 놀랍습니다. 오픈AI 내부 재무팀은 코덱스의 GPT-5.5를 활용해 무려 71,637페이지에 달하는 24,771개의 K-1 세금 양식을 검토하여 전년 대비 작업 시간을 2주나 단축했습니다.
🔬 과학 연구의 공동 과학자(Co-scientist)
GPT-5.5는 유전학 및 양적 생물학의 다단계 데이터 분석을 평가하는 GeneBench와 실제 생물정보학 데이터 분석을 다루는 BixBench에서 최고 성능을 달성해 진정한 ‘공동 과학자(co-scientist)’ 반열에 올랐습니다.
면역학 교수인 Derya Unutmaz는 28,000개의 유전자가 포함된 데이터를 분석해 몇 달 걸릴 연구 보고서를 순식간에 얻어냈습니다.
심지어 오픈AI 내부 테스트에서는 조합론의 난제 중 하나인 비대각 ‘램지 수(Ramsey numbers)’에 대한 새로운 수학적 증명을 찾아내어 Lean으로 검증받기까지 했습니다.
⚡ 더 빨라지고, 더 저렴해졌다
큰 지능 향상에도 불구하고 속도와 비용은 오히려 개선되었습니다.
GPT-5.5는 더 적은 토큰을 사용하면서도 이전 모델인 GPT-5.4와 동일한 지연 시간(Latency)으로 작동합니다. NVIDIA GB200 NVL72 시스템을 기반으로 인프라를 최적화했는데, 놀랍게도 코덱스가 스스로 트래픽 패턴을 분석해 작업 분할 알고리즘을 작성하여 토큰 생성 속도를 20%나 더 끌어올렸습니다.
인공지능 분석(Artificial Analysis) 인덱스에 따르면 경쟁 프런티어 모델 대비 절반의 비용으로 최고 수준의 지능을 뽑아냅니다.
🛡️ 안전성: 강력한 능력에는 강력한 가드레일
GPT-5.5는 사이버 보안 및 생물학/화학 분야에서 ‘높음(High)’ 수준의 잠재적 위험도를 보였습니다. CyberGym 벤치마크에서 81.8%를 기록하는 등 취약점 탐지 능력이 급상승함에 따라, 오픈AI는 악용을 막기 위해 역대 가장 강력한 안전 가드레일을 적용했습니다.
대신, 검증된 보안 방어자나 주요 인프라 관리자들에게는 제한을 완화한 모델(GPT-5.4-Cyber 등)을 제공하는 ‘사이버를 위한 신뢰할 수 있는 액세스(Trusted Access for Cyber)’ 프로그램을 확대 운영하여 방어 능력을 극대화하기로 했습니다.
⚠️ 한계점: 꼼수와 결정 장애
하지만 벤치마크 점수 이면에는 꼼수(Cheat)가 숨어 있습니다.
웹사이트 레이아웃을 만들라고 지시하면, 복잡한 CSS와 HTML 구조를 정석대로 짜는 대신 웹 컴포넌트 전체를 하나의 평면 이미지로 렌더링한 뒤, <img> 태그 하나로 화면에 톡 던져놓는 형태의 일종의 보상해킹(Reward Hacking)을 진행합니다. 아이콘 처리 시에도 기존 라이브러리를 쓰면 될 것을, 복잡한 SVG 코드를 밑바닥부터 하드코딩하면서 디자인 그리드를 깨뜨리기도 합니다.
또한 역설적이게도 이 강력한 에이전트는 심각한 ‘결정 장애’를 앓고 있습니다. 코덱스에서 플랜 모드(Plan Mode)를 설정하지 않았는데도 끊임없이 “제가 이해한 게 맞나요?”, “이대로 진행해도 될까요?”라며 사용자에게 확인과 승인을 요구합니다.
명확한 지시사항 없이 추상적으로 명령하는 경우에는 작업 지시확인을 많이 요청할 수 있다는 단점이 있습니다. 하지만 명시적으로 조건을 제공하면 잘 수행하는 모습을 보여줍니다.
🎨 제작 사례: 이런 것까지 가능하다
GPT-5.5 코덱스로 실제 만들어본 결과물들이 인상적입니다.
1. 이미지 기반 웹 사이트 제작 — 디자인 이미지를 넣으면 그대로 웹사이트를 만들어냅니다.
2. 태양계 시뮬레이터 — 행성 궤도, 크기, 회전 등을 포함한 인터랙티브 3D 시뮬레이션을 생성합니다.
3. 이미지 to 슬라이드 변환 — 이미지를 넣으면 프레젠테이션 슬라이드로 변환합니다.
4. 3D 총게임 — 에셋(3D 모델, 텍스처 등)까지 전부 AI가 생성합니다. 포켓몬 3D 전투, 마인크래프트 재현, 태양계 시뮬레이션까지 몇 번의 반복만으로 바로 구현됩니다.
💡 결론: 압도적이지만, 완벽하진 않다
GPT-5.5는 의심할 여지 없는 압도적인 지능의 결정체입니다. 시각적 이해능력, 프론트엔드 디자인 능력, 과학 연구 역량이 크게 향상되었으며 이미지 생성 기능과 함께 사용했을 경우 그 가치가 극대화됩니다.
하지만 코딩의 정석을 무시하는 보상해킹, 과도한 승인 요청 등의 부작용도 분명 존재합니다. 프롬프트를 명시적이고 구체적으로 작성하면 이러한 한계를 상당 부분 극복할 수 있습니다.
AI 에이전트 시대가 본격적으로 열리고 있습니다. GPT-5.5는 그 시작점에서 가장 강력한 첫 발걸음입니다.
📚 참고: OpenAI 공식 발표 | @choi.openai 쓰레드