GPT-5.3-Codex, 자기 자신을 만든 첫 AI

들어가며

안녕하세요, 전민오입니다.

2월 5일, OpenAI가 GPT-5.3-Codex를 발표했어요.

"자기 자신을 만든 첫 모델이라고요?" "Terminal-Bench 77%요?" "사이버보안 위험하다고요?"

같은 날 Anthropic도 최신 플래그십 모델 Claude Opus 4.6을 발표했는데, 그로부터 20분 만에 나온 모델이에요. 타이밍부터 심상치 않죠.

쏟아지는 정보 속에서, 개발자 입장에서 진짜 중요한 게 뭔지 정리해봤어요.

한 문장으로 요약

코드를 넘어, 개발자의 일 전체를 하는 에이전트.

GPT-5.3-Codex의 핵심은 세 가지예요.

자기 자신을 만드는 데 쓰인 첫 모델이에요 — 자신의 훈련을 디버깅하고, 배포를 관리했어요
코딩 벤치마크를 작살냈어요 — Terminal-Bench 2.0에서 77.3%로 역대 최고
"코드 에이전트"를 넘어섰어요 — 디버깅, 배포, 모니터링, PRD 작성, 유저 리서치까지

하나씩 뜯어볼게요.

1. "자기 자신을 만든" 첫 모델

이게 가장 눈길을 끄는 부분이에요.

OpenAI는 이렇게 말했어요:

"GPT-5.3-Codex는 자기 자신을 만드는 데 기여한 첫 모델입니다."

구체적으로 뭘 했을까요?

초기 버전으로 자신의 훈련 과정을 디버깅했어요
배포 관리를 직접 수행했어요
테스트 결과와 평가를 진단했어요
3일 간격으로 새 버전을 훈련하고 평가하는 사이클을 돌렸어요

"AI가 AI를 만든다"는 말이 추상적으로 들릴 수 있는데, 여기서는 실제 개발 파이프라인에 투입된 거예요. 코드 리뷰, CI/CD, 테스트 진단 같은 실무 작업을 모델이 직접 한 거죠.

이게 왜 중요할까?

단순히 "멋있다"가 아니에요. 개발 속도가 근본적으로 달라진다는 뜻이에요. 모델이 자기 자신의 문제를 찾고 고칠 수 있다면, 다음 버전까지의 시간이 확 줄어들거든요.

물론 이건 OpenAI 팀의 관리 하에 이루어진 거예요. 완전 자율이 아니라 도구로서 활용된 거지만, 방향성은 명확해요.

2. 벤치마크 — 숫자로 보는 성능

코딩: Terminal-Bench 2.0

에이전틱 코딩 능력을 평가하는 벤치마크에서 역대 최고 점수를 찍었어요.

| 모델 | 점수 | |---|---| | GPT-5.3-Codex | 77.3% | | Claude Opus 4.6 | 65.4% | | GPT-5.2-Codex | 64.0% | | GPT-5.2 | 62.2% |

터미널 환경에서 셸 명령, 파일 조작, 디버깅을 얼마나 잘하는지를 측정하는 벤치마크예요. 전작(GPT-5.2-Codex) 대비 13.3%p 상승. 현존하는 모든 모델을 제치고 1위예요.

소프트웨어 엔지니어링: SWE-Bench Pro

실제 오픈소스 프로젝트의 이슈를 해결하는 능력을 측정해요. 4개 프로그래밍 언어에 걸친 실전 테스트예요.

| 모델 | 점수 | |---|---| | GPT-5.3-Codex | 56.8% | | GPT-5.2-Codex | 56.4% | | GPT-5.2 | 55.6% |

점수 차이가 작아 보이지만, 주목할 건 더 적은 토큰으로 같은 결과를 냈다는 점이에요. 효율이 올라간 거죠.

컴퓨터 사용: OSWorld-Verified

AI가 실제 컴퓨터를 조작하는 능력이에요.

| 모델 | 점수 | |---|---| | GPT-5.3-Codex | 64.7% | | GPT-5.2-Codex | 38.2% | | GPT-5.2 | 37.9% |

전작(38.2%)에서 26.5%p나 뛰었어요. 거의 2배 가까운 점프예요. 인간 기준선이 약 72%인 걸 감안하면, 사람 수준에 빠르게 다가가고 있어요.

지식 업무: GDPval

금융, 법률, 컨설팅 같은 실무 환경에서의 성능이에요. GPT-5.3-Codex는 70.9% 승률을 기록했어요. 코딩뿐 아니라 전문 지식 영역에서도 경쟁력이 있다는 뜻이에요.

3. "코드를 넘어선" 에이전트

GPT-5.3-Codex의 가장 큰 변화는 정체성이에요.

OpenAI의 표현을 빌리면:

"코드를 쓰고 리뷰하는 에이전트에서, 개발자가 컴퓨터로 하는 거의 모든 일을 할 수 있는 에이전트로."

구체적으로 이런 것들을 해요:

코드 작성, 리뷰, 디버깅 (기존)
배포, 모니터링 (신규)
PRD 작성, 카피 수정 (신규)
유저 리서치, 테스트 설계 (신규)
메트릭 수집, 분석 (신규)
스프레드시트 작업, 인프라 관리 (신규)

실시간 상호작용

가장 체감이 큰 변화예요. 기존 에이전트는 "요청 → 대기 → 결과"였다면, GPT-5.3-Codex는 작업 중에 대화할 수 있어요.

기존 방식:
"이 버그 고쳐줘" → ⏳ 10분 대기 → 결과

GPT-5.3-Codex:
"이 버그 고쳐줘" → "원인을 찾았어요, A 방향으로 갈까요 B로 갈까요?"
→ "A로 해줘" → "수정했어요, 테스트도 돌려볼까요?" → ...

동료와 페어 프로그래밍하는 느낌이에요. 중간에 방향을 바꿔도 컨텍스트를 잃지 않아요.

4. 기술적 특징

400K 토큰 컨텍스트 + Perfect Recall

컨텍스트 윈도우는 400K 토큰이에요. 출력은 128K 토큰까지.

숫자만 보면 경쟁 모델들보다 작아 보일 수 있는데, OpenAI는 다른 전략을 택했어요. "Perfect Recall" 어텐션 메커니즘이에요. 컨텍스트 안에 넣은 정보를 하나도 놓치지 않겠다는 거죠.

기존 모델들은 컨텍스트가 길어질수록 앞부분 정보를 까먹는 문제가 있었어요. GPT-5.3-Codex는 400K 토큰 전체에서 정보 손실 없이 정확하게 기억해요. 양보다 정밀도를 택한 전략이에요.

Dynamic Reasoning

이전 모델들은 Static Routing 방식이었어요. 요청이 들어오면 처음에 계산량을 정해놓고 끝까지 그대로 가는 거죠.

GPT-5.3-Codex는 다릅니다. 작업 도중에 "이건 더 깊이 생각해야겠다"를 스스로 판단해요.

Static Routing (기존):
단순 질문 → 계산량 3 → 답변
복잡 질문 → 계산량 3 → 부정확한 답변 😓

Dynamic Reasoning (5.3):
단순 질문 → 계산량 1 → 빠른 답변
복잡 질문 → 계산량 1 → "이건 어렵네" → 계산량 5로 올림 → 정확한 답변

"언제 깊이 생각할지"를 모델이 스스로 결정하는 거예요. 업계 전체가 이 방향으로 가고 있는 추세예요.

25% 속도 향상

GPT-5.2 대비 25% 빨라졌어요. NVIDIA GB200 NVL72와 공동 설계해서 이전 세대 대비 훈련 성능이 4배 빨라졌다고 해요.

5. 사이버보안 'High' 등급 — 양날의 검

이 부분은 꼭 짚고 넘어가야 해요.

GPT-5.3-Codex는 OpenAI의 Preparedness Framework에서 사이버보안 'High' 등급을 받은 첫 모델이에요.

뭔 뜻이냐면

이 모델이 소프트웨어 취약점을 찾는 데 매우 뛰어나다는 거예요. OpenAI는 이걸 의도적으로 훈련시켰어요.

Fortune은 이걸 **"전례 없는 사이버보안 리스크"**라고 보도했어요.

OpenAI의 대응

자동 모니터링 시스템 배포
고급 기능에 대한 신뢰할 수 있는 접근 제어
위협 인텔리전스 기반 집행 파이프라인
사이버 방어를 위한 $10M API 크레딧 투자 (오픈소스, 핵심 인프라 대상)

양날의 검이에요. 보안 취약점을 찾는 능력이 뛰어나다는 건, 방어에도 공격에도 쓸 수 있다는 뜻이니까요. 하지만 OpenAI는 "엔드 투 엔드로 사이버 공격을 자동화할 수 있다는 확정적 증거는 없다"고 밝혔어요.

6. 어디서 쓸 수 있나?

| 플랫폼 | 상태 | |---|---| | Codex 앱 | 사용 가능 (유료 플랜) | | Codex CLI | 사용 가능 | | IDE 확장 | 사용 가능 | | Codex 웹 | 사용 가능 | | API | 곧 출시 예정 |

ChatGPT Plus, Pro, Business, Enterprise 구독자는 바로 쓸 수 있어요. Free, Go 사용자에게도 제한적으로 접근이 열려있다고 해요.

API 가격은 아직 미공개예요. 다만 유료 플랜의 rate limit를 2배로 올렸다는 건 확인됐어요.

마무리

GPT-5.3-Codex는 "코딩 AI"의 정의를 바꾼 모델이에요.

코드만 쓰는 게 아니라, 개발자의 일 전체를 하겠다는 선언이에요. 디버깅, 배포, 모니터링, 심지어 PRD 작성까지.

Terminal-Bench 2.0에서 77.3%. 전작에서 13%p를 뛰어넘고 역대 최고 기록을 세웠어요.

그리고 "자기 자신을 만든 첫 모델"이라는 타이틀. AI가 AI 개발 파이프라인에 실질적으로 투입되는 시대가 온 거예요.

물론 API 가격 미공개, 사이버보안 리스크, 400K 컨텍스트 같은 현실적인 고려사항은 있어요.

하지만 방향은 분명해요. AI 코딩 에이전트가 "도구"에서 "동료"로, 다시 "팀원"으로 진화하고 있다는 것.

직접 써보세요. 특히 터미널 중심으로 작업하는 개발자라면, 체감이 확 다를 거예요.

참고 자료