Claude Opus 4.6, 뭐가 달라졌을까

들어가며

안녕하세요, 전민오입니다.

2월 5일, Anthropic이 Claude Opus 4.6을 발표했어요. 타임라인이 난리가 났죠.

"1M 토큰이요?" "Agent Teams가 뭐예요?" "GPT-5.2 이겼다고요?"

정보가 쏟아지는데, 정작 개발자 입장에서 뭐가 중요한지 정리된 글은 찾기 어려웠어요. 그래서 공식 발표와 벤치마크 데이터를 직접 파헤쳐봤습니다.

한 문장으로 요약

더 오래, 더 넓게, 더 깊이 생각하는 모델.

Opus 4.6의 핵심은 세 가지예요.

컨텍스트 윈도우가 5배 늘어났어요 — 200K → 1M 토큰
Agent Teams가 등장했어요 — 여러 에이전트가 병렬로 작업
추론 능력이 크게 올랐어요 — ARC-AGI-2에서 전작 대비 거의 2배

하나씩 뜯어볼게요.

1. 1M 토큰 컨텍스트 윈도우

이게 가장 체감이 큰 변화예요.

200K → 1M, 숫자만 봐도 감이 오죠

| 토큰 수 | 대략적인 크기 | |---|---| | 200K (기존) | 코드 파일 약 50~100개 | | 1M (신규) | 코드 파일 약 250~500개 |

대규모 코드베이스를 통째로 넣을 수 있다는 뜻이에요. 마이그레이션이나 리팩토링 같은 작업에서 진짜 차이가 납니다.

단, 아직 베타예요. API usage tier 4 이상 조직에서만 활성화할 수 있어요. 그리고 Opus 4.6만의 특권은 아닌데, Sonnet 4.5와 Sonnet 4도 1M 컨텍스트를 지원해요(역시 베타).

실제로 긴 문맥을 이해할까?

"토큰 수만 늘리면 뭐해, 뒤에 있는 정보는 까먹는데" — 맞는 걱정이에요. 기존 모델들은 컨텍스트가 길어질수록 성능이 떨어지는 문제가 있었죠.

Opus 4.6은 여기서 확실한 차이를 보여줬어요. MRCR v2 벤치마크(1M 토큰 안에서 숨겨진 정보를 찾는 테스트)에서:

| 모델 | 점수 | |---|---| | Opus 4.6 | 76% | | Sonnet 4.5 | 18.5% |

4배 넘는 차이예요. 1M 토큰을 넣었을 때, 진짜로 전체를 이해하고 있다는 뜻이에요.

가격은?

여기서 주의할 점이 있어요.

| 프롬프트 크기 | 입력 | 출력 | |---|---|---| | 200K 이하 | $5/M 토큰 | $25/M 토큰 | | 200K 초과 | $10/M 토큰 | $37.50/M 토큰 |

200K를 넘으면 프리미엄 가격이 적용돼요. 1M 토큰을 풀로 쓰면 비용이 꽤 나올 수 있으니, 필요한 만큼만 넣는 전략이 중요해요.

2. Agent Teams

이게 가장 흥미로운 기능이에요.

뭔가요?

기존에는 하나의 에이전트가 순차적으로 작업을 처리했어요. Agent Teams는 여러 에이전트가 동시에 작업을 나눠서 하는 기능이에요.

기존 방식:
에이전트 → 작업1 → 작업2 → 작업3 → 완료

Agent Teams:
리드 에이전트 → 작업 분배
  ├── 에이전트A → 작업1 → 완료
  ├── 에이전트B → 작업2 → 완료
  └── 에이전트C → 작업3 → 완료
리드 에이전트 → 결과 취합 → 완료

어떻게 동작하나요?

리드 에이전트가 작업을 분석하고 분배해요
각 팀 멤버는 독립된 컨텍스트 윈도우를 가져요
팀 멤버들끼리 직접 메시지를 주고받을 수 있어요
공유 태스크 리스트로 진행 상황을 관리해요
의존성이 있는 작업은 선행 작업이 끝나면 자동으로 시작돼요

활성화 방법

Claude Code에서 환경변수 하나면 돼요:

CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

어디에 쓸 수 있을까?

대규모 코드베이스 리팩토링
여러 파일에 걸친 테스트 작성
복잡한 버그 디버깅 (여러 가설을 동시에 검증)
코드 리뷰 + 문서화 동시 진행

주의할 점

각 에이전트가 별도로 과금돼요. 3개 에이전트를 띄우면 토큰 비용도 약 3배. 간단한 작업에는 오히려 비효율적일 수 있어요.

3. 벤치마크 — 숫자로 보는 성능

말로만 "좋아졌다"고 하면 안 되겠죠. 숫자를 봅시다.

추론 능력: ARC-AGI-2

이 벤치마크는 추상적 추론 능력을 측정해요. 패턴을 찾고, 규칙을 추론하는 능력이죠.

| 모델 | 점수 | |---|---| | Opus 4.6 | 68.8% | | GPT-5.2 | 54.2% | | Gemini 3 Pro | 45.1% | | Opus 4.5 | 37.6% |

전작(Opus 4.5)에서 거의 2배 가까이 뛰었어요. 이건 단순 개선이 아니라 질적 변화예요.

코딩 능력: Terminal-Bench 2.0

에이전틱 코딩 능력을 평가하는 벤치마크에서 역대 최고 점수를 기록했어요.

| 모델 | 점수 | |---|---| | Opus 4.6 | 65.4% | | Opus 4.5 | 59.8% |

실무 능력: GDPval-AA

금융, 법률, 컨설팅 등 실제 업무 환경에서의 성능을 측정하는 벤치마크예요.

| 모델 | Elo 점수 | |---|---| | Opus 4.6 | 1,606 | | GPT-5.2 | 1,462 | | Opus 4.5 | 1,416 |

GPT-5.2보다 144 Elo 포인트 높아요. 이건 약 70%의 확률로 더 좋은 결과를 낸다는 뜻이에요.

컴퓨터 사용: OSWorld

AI가 실제 컴퓨터를 조작하는 능력을 측정해요.

| 모델 | 점수 | |---|---| | Opus 4.6 | 72.7% | | Opus 4.5 | 66.3% |

법률 능력: BigLaw Bench

| 모델 | 점수 | |---|---| | Opus 4.6 | 90.2% |

40%의 문제에서 만점을 받았고, 84%의 문제에서 0.8점 이상을 기록했어요.

복합 추론: Humanity's Last Exam

물리학, 수학, 철학 등 여러 분야를 넘나드는 초고난도 문제 세트예요. Opus 4.6이 전 프론티어 모델 중 최고 점수를 기록했어요.

웹 검색: BrowseComp

인터넷에서 찾기 어려운 정보를 에이전틱하게 탐색하는 능력을 측정하는 벤치마크인데, 여기서도 **SOTA(State-of-the-Art)**를 달성했어요.

4. 그 외 눈여겨볼 것들

128K 출력 토큰

입력만 늘어난 게 아니에요. 한 번에 출력할 수 있는 토큰도 128K로 늘어났어요. 긴 코드나 문서를 한 번에 생성할 수 있죠.

Adaptive Thinking

Anthropic이 Adaptive Thinking이라고 부르는 기능이에요. Opus 4.6은 언제 깊이 생각해야 하고, 언제 빠르게 답해야 하는지 스스로 판단할 수 있어요. 단순한 질문에 과도하게 시간을 쓰지 않고, 복잡한 문제에는 충분히 고민하죠.

API에서는 Effort Levels(low / medium / high / max)로 이걸 직접 조절할 수도 있어요. 비용이 걱정되면 low로, 정확도가 중요하면 max로 설정하면 돼요.

PowerPoint 통합

리서치 프리뷰 단계지만, Claude가 슬라이드를 직접 만들 수 있어요. 레이아웃, 폰트까지 읽어서 기업 템플릿에 맞춰 생성해줘요.

사용 가능한 곳

| 플랫폼 | 모델 ID | |---|---| | Claude API | claude-opus-4-6 | | claude.ai | 사용 가능 | | AWS Bedrock | 사용 가능 | | Google Vertex AI | 사용 가능 | | Azure Foundry | 사용 가능 | | GitHub Copilot | 사용 가능 |

5. 개발자로서 체감하는 변화

코드베이스 전체를 이해해요

200K 토큰일 때는 "이 파일과 관련된 파일 몇 개만 봐줘"라고 해야 했어요. 1M 토큰이면 중간 규모 프로젝트의 코드 전체를 한 번에 이해할 수 있어요.

대규모 마이그레이션이 가능해졌어요

Anthropic 공식 발표에서 "시니어 엔지니어처럼 대규모 다중 파일 코드베이스 마이그레이션을 처리한다"고 했어요. 버전 업그레이드, 프레임워크 전환 같은 작업에서 진짜 도움이 될 수 있겠죠.

버그 잡는 능력이 올랐어요

Terminal-Bench 2.0에서 역대 최고점을 기록한 건, 복잡한 버그를 진단하는 능력이 올랐다는 뜻이에요. 특히 여러 파일에 걸쳐 있는 버그를 추적하는 데 강해졌어요.

6. 주의할 점

가격

1M 토큰을 풀로 쓰면 비용이 꽤 나와요. 200K 초과 시 프리미엄 가격이 적용되니까, 무작정 긴 컨텍스트를 넣는 건 비효율적이에요.

Agent Teams는 아직 실험 단계

환경변수로 활성화하는 것에서 알 수 있듯이, 아직 실험적인 기능이에요. 프로덕션에 바로 적용하기보다는 내부 도구나 개발 환경에서 먼저 써보는 걸 추천해요.

모든 작업에 Opus가 필요하진 않아요

간단한 코드 생성이나 단순 질문은 Sonnet 4.5로 충분해요. Opus 4.6은 복잡한 추론, 대규모 코드베이스, 장시간 에이전틱 작업에서 빛을 발해요.

마무리

Claude Opus 4.6은 단순한 업그레이드가 아니에요.

1M 토큰 컨텍스트로 전체 코드베이스를 한 번에 이해할 수 있고, Agent Teams로 복잡한 작업을 병렬 처리할 수 있고, 향상된 추론 능력으로 진짜 어려운 문제를 풀 수 있어요.

ARC-AGI-2에서 전작 대비 거의 2배(37.6% → 68.8%)라는 숫자가 이걸 증명하죠.

물론 가격이나 Agent Teams의 성숙도 같은 현실적인 고려사항은 있어요. 하지만 방향성은 명확해요. AI가 "코드 좀 완성해주는 도구"에서 "함께 일하는 동료"로 진화하고 있다는 거죠.

한번 직접 써보세요. 특히 대규모 프로젝트를 다루고 있다면, 체감이 확실히 다를 거예요.

참고 자료