GPT-5.5 총정리: 성능·벤치마크·가격·반응 (2026)

3줄 요약

GPT-5.5는 2026년 4월 23일 공개된 OpenAI의 최신 프런티어 모델로, 코딩 에이전트·컴퓨터 사용·지식 업무·과학 리서치를 전면에 세운 업데이트다.
Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, BrowseComp 84.4%처럼 장기 실행 에이전트에서는 강하지만, SWE-Bench Pro는 58.6%로 Claude Opus 4.7의 64.3%에 못 미친다.
API 토큰 단가는 GPT-5.4 대비 2배지만, Artificial Analysis는 약 40% 출력 토큰 절감으로 실제 인덱스 실행 비용 상승이 약 20%에 그쳤다고 봤다.

GPT-5.5는 정확히 무엇이 달라졌나?
벤치마크에서 GPT-5.5는 어디가 강한가?
가격은 정말 GPT-5.4보다 2배 비싼가?
Codex 사용자는 지금 바로 GPT-5.5로 바꿔야 하나?
사람들 반응은 왜 이렇게 갈리는가?
GPT-5.5와 Opus 4.7은 어디서 갈리는가?
한계와 주의점은 무엇인가?
어떤 팀이 먼저 써야 하나?
FAQ: GPT-5.5에 대해 자주 묻는 질문은?
결론: GPT-5.5는 지금 써볼 만한가?

GPT-5.5는 정확히 무엇이 달라졌나?

결론부터 말하면 GPT-5.5는 “채팅을 더 잘하는 모델”보다 “일을 끝까지 밀고 가는 모델”에 가깝다. OpenAI는 GPT-5.5를 코드 작성과 디버깅, 온라인 리서치, 데이터 분석, 문서와 스프레드시트 생성, 소프트웨어 조작을 이어서 수행하는 모델로 설명했다 (출처: OpenAI GPT-5.5 발표). 사용자가 세부 단계를 계속 관리하지 않아도 계획하고, 도구를 쓰고, 확인하고, 다시 시도하는 쪽에 초점을 맞춘 출시다.

모델 요약 GPT-5.5

API 가격 API 예정가: 입력 $5 / 출력 $30 (100만 토큰)

01 2026년 4월 23일 공개

02 ChatGPT·Codex 유료 플랜 순차 배포

03 Codex 400K, API 예정 1M 컨텍스트

04 Terminal-Bench 2.0 82.7%

05 GPT-5.5 Pro는 고정확도용 별도 티어

openai.com/index/introducing-gpt-5-5

출시일과 배포 범위

OpenAI 공식 발표일은 2026년 4월 23일이다. 한국 시간으로는 2026년 4월 24일 기준 최신 공개 모델로 보면 된다. ChatGPT에서는 Plus, Pro, Business, Enterprise 사용자에게 GPT-5.5 Thinking이 순차 배포되고, GPT-5.5 Pro는 Pro, Business, Enterprise 사용자에게 제공된다. Codex에서는 Plus, Pro, Business, Enterprise, Edu, Go 플랜에 제공되며 400K 컨텍스트를 쓴다 (출처: OpenAI GPT-5.5 발표).

주의할 점도 있다. API 가격은 공개됐지만, OpenAI는 GPT-5.5와 GPT-5.5 Pro를 Responses API와 Chat Completions API에 곧 제공하겠다고만 밝혔다. 즉 2026년 4월 24일 현재는 ChatGPT·Codex 배포와 API 일반 제공을 분리해서 봐야 한다.

GPT-5.4와 역할이 어떻게 다른가?

GPT-5.4가 “상대적으로 저렴한 프로 작업 모델”이었다면, GPT-5.5는 한 단계 비싼 프런티어 작업 모델이다. OpenAI 가격 페이지도 GPT-5.5를 “coding and professional work”용 새 지능 클래스로 두고, GPT-5.4는 더 저렴한 선택지로 남겨놨다 (출처: OpenAI API Pricing).

판단 기준

GPT-5.5는 세 가지 기준으로 봐야 한다

좋아졌다는 말만으로는 부족하다. 실제 차이는 실행을 이어가는 힘, 긴 문맥을 붙잡는 힘, 작업당 비용이 어떻게 바뀌는지에서 드러난다.

실행 지속성 01

장기 실행

터미널, 브라우저, 도구 호출을 여러 번 이어가며 목표를 끝까지 밀고 가는 능력이다.

Codex와 자동화 워크플로에서 가장 먼저 체감된다.

장문맥 유지 02

긴 컨텍스트

512K~1M 근처의 긴 로그, 문서, 코드베이스에서도 필요한 정보를 잃지 않는 능력이다.

긴 문서 리서치와 대형 레포 분석에서 차이가 난다.

비용 효율 03

작업당 비용

토큰 단가는 오르지만, 재시도와 출력 토큰이 줄어 실제 작업 비용이 어떻게 바뀌는지다.

가격표보다 실제 작업 로그를 뽑아 비교하는 편이 정확하다.

왜 “에이전트 모델”이라고 부르나

GPT-5.5의 메시지는 명확하다. 한 번 질문하고 답을 받는 모델이 아니라, 여러 단계의 업무를 처리하는 에이전트형 업무 모델이라는 것이다. TechCrunch도 OpenAI가 GPT-5.5를 ChatGPT, Codex, 브라우저, 업무 자동화가 합쳐지는 슈퍼앱 전략의 한 조각으로 설명했다고 전했다 (출처: TechCrunch).

이 흐름은 Claude Code 완전 정복에서 다뤘던 IDE 중심 에이전트 흐름과도 맞닿아 있다. 이제 모델 비교는 “답변이 똑똑한가”보다 “툴을 쓰며 실제 변경을 끝낼 수 있는가”로 이동하고 있다.

벤치마크에서 GPT-5.5는 어디가 강한가?

GPT-5.5의 강점은 터미널 기반 에이전트, 웹 브라우징, 긴 컨텍스트 검색에서 가장 뚜렷하다. 반대로 실제 GitHub 이슈 해결을 보는 SWE-Bench Pro에서는 Opus 4.7이 여전히 앞선다. 그래서 “GPT-5.5가 최고” 또는 “별 차이 없다” 둘 다 반쪽짜리 해석이다.

판단 기준

벤치마크는 한 줄 순위가 아니라 세 묶음으로 읽어야 한다

이번 업데이트의 핵심은 모든 지표를 다 이긴 것이 아니라, 특정 업무군에서 승부처가 바뀌었다는 점이다.

실행형 01

Terminal-Bench·OSWorld

터미널 명령, GUI 조작, 반복 검증처럼 모델이 실제 행동을 이어가는지 보는 지표다.

GPT-5.5가 가장 강하게 보이는 축이다.

패치형 02

SWE-Bench Pro·MCP Atlas

실제 코드베이스에서 문제를 고치고 도구 계약을 지키는 능력을 본다.

Opus 4.7의 방어력이 여전히 높다.

문맥형 03

MRCR·BrowseComp

긴 문서에서 바늘 같은 정보를 찾고, 웹 자료를 종합하는 능력이다.

GPT-5.5가 GPT-5.4 대비 가장 크게 뛴 영역이다.

코딩: Terminal-Bench는 압승, SWE-Bench Pro는 애매

OpenAI 공식 표에서 GPT-5.5는 Terminal-Bench 2.0 82.7%를 기록했다. GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%보다 높다. 이 벤치마크는 복잡한 커맨드라인 작업에서 계획, 반복, 도구 조정을 보는 지표라 Codex 같은 에이전트 환경과 잘 맞는다 (출처: OpenAI GPT-5.5 발표).

하지만 SWE-Bench Pro는 다르다. GPT-5.5는 58.6%, GPT-5.4는 57.7%, Claude Opus 4.7은 64.3%다. “코딩 전체 1위”라고 말하기 어렵다. 단일 PR 해결, 복잡한 코드베이스 버그 수정, 실서비스 리팩터링에서는 다음 글에서 다룰 Opus 4.7과 정면 비교가 필요하다. 기존 정리는 Claude Opus 4.7 총정리에서 먼저 볼 수 있다.

벤치마크 그래프

코딩 벤치마크는 두 갈래로 갈린다

터미널에서 오래 실행하는 작업은 GPT-5.5가 강하고, 실제 GitHub 이슈 해결은 Opus 4.7이 여전히 앞선다.

GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1

Terminal-Bench 2.0 복잡한 커맨드라인 작업

GPT-5.5 82.7%

GPT-5.4 75.1%

Opus 4.7 69.4%

Gemini 3.1 68.5%

SWE-Bench Pro 실제 GitHub 이슈 해결

GPT-5.5 58.6%

GPT-5.4 57.7%

Opus 4.7 64.3%

Gemini 3.1 54.2%

Expert-SWE 장기 코딩 과제 내부 평가

GPT-5.5 73.1%

GPT-5.4 68.5%

출처: OpenAI GPT-5.5 발표, Evaluations 표

벤치마크	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	-	-
OSWorld-Verified	78.7%	75.0%	78.0%	-
BrowseComp	84.4%	82.7%	79.3%	85.9%
MCP Atlas	75.3%	70.6%	79.1%	78.2%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
MRCR 512K-1M	74.0%	36.6%	32.2%	-

컴퓨터 사용과 브라우징: 실무 에이전트에 가까워졌다

OSWorld-Verified는 실제 운영체제 환경에서 모델이 화면을 이해하고 작업을 수행하는 능력을 본다. GPT-5.5는 78.7%로 GPT-5.4의 75.0%와 Opus 4.7의 78.0%를 근소하게 앞선다 (출처: OpenAI GPT-5.5 발표).

BrowseComp는 웹에서 정보를 찾아 합성하는 성격이 강하다. GPT-5.5 기본 모델은 84.4%, GPT-5.5 Pro는 90.1%다. Opus 4.7은 79.3%다. 긴 리서치, 자료 확인, 문서 생성형 업무에서는 GPT-5.5 쪽이 더 설득력 있다. 이 지점은 Graphify로 Claude Code 토큰 줄이는 법과도 연결된다. 모델이 길게 읽는 능력이 좋아져도, 외부 메모리와 구조화된 컨텍스트를 쓰면 비용과 정확도를 더 안정화할 수 있다.

벤치마크 그래프

도구 사용과 업무형 지표

브라우징·도구 호출·컴퓨터 사용은 단일 모델의 완승보다 업무별 강점 차이가 더 중요하다.

GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1

GDPval 44개 직업군 업무 산출물

GPT-5.5 84.9%

GPT-5.4 83.0%

Opus 4.7 80.3%

Gemini 3.1 67.3%

OSWorld-Verified 실제 컴퓨터 환경 조작

GPT-5.5 78.7%

GPT-5.4 75.0%

Opus 4.7 78.0%

BrowseComp 웹 검색과 정보 종합

GPT-5.5 84.4%

GPT-5.4 82.7%

Opus 4.7 79.3%

Gemini 3.1 85.9%

MCP Atlas 도구 계약과 호출 안정성

GPT-5.5 75.3%

GPT-5.4 70.6%

Opus 4.7 79.1%

Gemini 3.1 78.2%

Toolathlon 도구 사용 종합 평가

GPT-5.5 55.6%

GPT-5.4 54.6%

Gemini 3.1 48.8%

Tau2-bench Telecom 고객 응대 워크플로

GPT-5.5 98.0%

GPT-5.4 92.8%

출처: OpenAI GPT-5.5 발표, Professional·Computer use and vision·Tool use 표

긴 컨텍스트: 1M 근처에서 점프가 크다

가장 눈에 띄는 수치는 OpenAI MRCR v2 8-needle 512K-1M이다. GPT-5.5는 74.0%, GPT-5.4는 36.6%, Opus 4.7은 32.2%다. 같은 긴 문서 안에서 여러 개의 바늘 같은 정보를 찾아야 하는 테스트에서 GPT-5.5가 두 배 가까운 점프를 보인 셈이다 (출처: OpenAI GPT-5.5 발표).

이 수치가 바로 “대형 코드베이스 전체를 넣고 질문한다”는 사용 사례의 근거가 된다. 물론 실제 레포에서는 의존성, 빌드 로그, 테스트 결과, 최신 파일 상태가 함께 들어가야 하므로 벤치마크 점수를 그대로 실전 성공률로 옮기면 안 된다. 그래도 1M 컨텍스트 구간에서 GPT-5.4 대비 개선 폭은 이번 업데이트의 가장 분명한 장점이다.

벤치마크 그래프

긴 문맥과 고난도 추론은 격차가 더 선명하다

MRCR 512K~1M 구간은 GPT-5.5가 GPT-5.4와 Opus 4.7을 크게 벌리는 지점이다.

GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1

MRCR 512K~1M 긴 문맥 다중 검색

GPT-5.5 74.0%

GPT-5.4 36.6%

Opus 4.7 32.2%

FrontierMath Tier 1~3 고난도 수학 문제

GPT-5.5 51.7%

GPT-5.4 47.6%

Opus 4.7 43.8%

Gemini 3.1 36.9%

FrontierMath Tier 4 더 어려운 수학 문제

GPT-5.5 35.4%

GPT-5.4 27.1%

Opus 4.7 22.9%

Gemini 3.1 16.7%

BixBench 바이오인포매틱스 분석

GPT-5.5 80.5%

GPT-5.4 74.0%

출처: OpenAI GPT-5.5 발표, Evaluations 표

가격은 정말 GPT-5.4보다 2배 비싼가?

토큰당 가격만 보면 맞다. GPT-5.5는 GPT-5.4보다 입력과 출력 모두 2배 비싸다. 하지만 에이전트 업무에서는 토큰당 가격보다 “한 작업을 끝내는 데 드는 총 토큰”이 더 중요하다.

판단 기준

GPT-5.5 비용은 가격표만 보면 안 된다

에이전트 모델의 청구액은 단가, 출력 길이, 실패 후 재시도 횟수가 함께 만든다.

단가 01

입력·출력 토큰 가격

GPT-5.5는 GPT-5.4보다 입력과 출력 단가가 모두 2배다. 짧은 Q&A에서는 이 차이가 그대로 보인다.

효율 02

작업당 출력 토큰

같은 일을 더 짧게 끝내면 출력 단가 상승을 일부 상쇄할 수 있다. Artificial Analysis가 본 핵심도 이 지점이다.

실패 비용 03

재시도와 사람 검토

한 번에 통과하는 비율이 오르면 테스트 재실행, 프롬프트 수정, 사람 검토 시간이 함께 줄어든다.

공개 API 가격표

OpenAI 가격 페이지는 GPT-5.5를 “곧 제공 예정”으로 표시하면서 100만 토큰 기준 입력 $5.00, 캐시 입력 $0.50, 출력 $30.00을 제시한다. GPT-5.4는 입력 $2.50, 캐시 입력 $0.25, 출력 $15.00이다 (출처: OpenAI API Pricing).

모델	입력 / 1M	캐시 입력 / 1M	출력 / 1M	상태
GPT-5.5	$5.00	$0.50	$30.00	곧 제공 예정
GPT-5.5 Pro	$30.00	-	$180.00	곧 제공 예정
GPT-5.4	$2.50	$0.25	$15.00	API 제공
GPT-5.4 mini	$0.75	$0.075	$4.50	API 제공
Claude Opus 4.7	$5.00	별도 캐시 정책	$25.00	API 제공

여기서 GPT-5.5 Pro는 완전히 다른 비용 구간이다. 출력 $180은 대량 코딩 자동화에 쓰기 부담스러운 수준이다. 오답 비용이 큰 리서치, 법률 검토, 금융 모델링, 과학 데이터 해석처럼 “한 번에 더 맞아야 하는” 작업에 제한적으로 쓰는 모델로 보는 게 맞다.

단가 2배와 작업당 비용은 다르다

Artificial Analysis는 GPT-5.5의 토큰당 가격이 GPT-5.4 대비 2배지만, 자체 Intelligence Index를 실행할 때 출력 토큰 사용량이 약 40% 줄어 전체 실행 비용 상승은 약 20%에 그쳤다고 분석했다 (출처: Artificial Analysis).

핵심 정리

출력 비용은 이렇게 바뀐다

단가는 2배지만 출력 토큰이 줄면 작업당 비용 상승폭은 달라진다. 아래는 Codex 작업 하나를 단순화한 계산이다.

GPT-5.4 $1.50 출력 10만 토큰 × 100만 토큰당 $15 기준 작업이 길게 풀리거나 재시도가 많은 경우

GPT-5.5 $1.80 출력 6만 토큰 × 100만 토큰당 $30 출력 토큰이 약 40% 줄어든다고 가정

해석 +20% 토큰 단가는 2배지만 작업당 출력 비용은 약 20% 상승 짧은 Q&A에는 이 계산이 그대로 적용되지 않는다

GPT-5.5 비용 판단 프레임 인포그래픽 - 단가, 출력량, 재시도를 함께 보고 작업당 성공 비용을 비교하는 구조 — 가격표 숫자보다 단가, 출력량, 재시도를 함께 묶은 작업당 성공 비용을 봐야 한다.

비용 비교에서 조심할 점

이 계산은 모든 사용자에게 자동으로 적용되지 않는다. 짧은 질문, 단순 번역, 일반 채팅처럼 출력 토큰이 크게 줄지 않는 작업은 그냥 2배 가까운 비용으로 느껴질 수 있다. 반대로 디버깅, 테스트, 브라우징, 도구 호출이 반복되는 에이전트 루프에서는 재시도와 장황한 중간 설명이 줄어 비용이 상쇄될 가능성이 있다.

가격표만 보고 결론내리면 위험하다

GPT-5.5는 토큰 단가 기준으로는 확실히 비싸졌다. 다만 에이전트형 작업에서는 토큰 효율, 실패 후 재시도 횟수, 프롬프트 캐시, Batch·Flex 옵션 사용 여부가 실제 청구액을 좌우한다. 배포 전에는 기존 GPT-5.4 로그 200~500건을 샘플링해 같은 작업을 다시 돌려보는 방식이 가장 안전하다.

Codex 사용자는 지금 바로 GPT-5.5로 바꿔야 하나?

Codex를 업무용으로 쓴다면 테스트할 가치는 높다. 다만 모든 작업의 기본값으로 바꾸기보다는 “터미널을 많이 쓰는 장기 작업”부터 라우팅하는 게 좋다.

GPT-5.5가 잘 맞는 Codex 작업

OpenAI는 GPT-5.5가 Codex에서 구현, 리팩터링, 디버깅, 테스트, 검증까지 이어가는 엔지니어링 작업에 강해졌다고 설명한다 (출처: OpenAI GPT-5.5 발표). Terminal-Bench 2.0 점수도 이 설명을 뒷받침한다.

특히 다음 작업부터 실험하는 게 좋다.

판단 기준

Codex에서 먼저 붙여볼 작업

모든 작업의 기본값으로 바꾸기보다, GPT-5.5의 장점이 보이는 루프부터 좁게 테스트하는 편이 낫다.

디버깅 01

실패 로그 기반 원인 추적

에러 로그, 재현 명령, 관련 파일을 함께 읽고 원인을 좁히는 작업이다.

검증 02

셸 명령과 테스트 반복

수정 후 빌드, 테스트, 타입 체크를 돌리고 실패하면 다시 고치는 루프다.

리팩터링 03

여러 파일을 건드리는 구조 변경

인터페이스는 유지하면서 내부 구현과 호출부를 함께 조정하는 작업이다.

마무리 04

구현 후 자체 점검

변경 요약, 남은 리스크, 재현 가능한 검증 결과까지 정리하는 작업이다.

Codex에서 GPT-5.5를 먼저 테스트할 작업 인포그래픽 - 긴 로그 읽기, 코드 수정, 테스트 반복 루프와 Terminal-Bench 82.7% — GPT-5.5는 단발 답변보다 로그를 읽고, 수정하고, 테스트를 반복하는 Codex 루프에서 먼저 검증할 만하다.

CodeRabbit 초기 테스트가 말하는 것

CodeRabbit은 GPT-5.5 초기 테스트에서 코드 리뷰 신호가 좋아졌다고 보고했다. 선별 벤치마크에서는 예상 이슈 발견률이 79.2% 대 58.3%, 정밀도가 40.6% 대 27.9%로 올랐고, 더 큰 테스트셋에서는 각각 65.0% 대 55.0%, 13.2% 대 11.6%를 기록했다고 밝혔다 (출처: CodeRabbit).

다만 이것은 벤더의 자체 워크로드다. “모든 코드 리뷰가 30% 좋아진다”가 아니라, 코드 리뷰 제품에서 신호 품질이 올라갈 가능성이 있다는 근거로 보는 게 맞다. 그래도 GPT-5.5가 장황한 재작성보다 작은 변경, 실제 실패 원인, 검증 루프에 강하다는 관찰은 Codex 사용자에게 꽤 중요한 신호다.

고속 모드는 누구에게 맞나

OpenAI는 Codex에서 GPT-5.5 고속 모드(Fast mode)도 제공한다고 밝혔다. 토큰 생성은 1.5배 빠르지만 비용은 2.5배다 (출처: OpenAI GPT-5.5 발표). 이 모드는 “빨리 답을 보는 것”보다 “긴 에이전트 작업의 대기 시간을 줄이는 것”에 가깝다.

고속 모드는 대기 시간을 줄이는 유료 옵션이다

빠른 모델이 항상 좋은 모델은 아니다. 사람이 기다리는지, 백그라운드 작업인지, 예산 제한이 있는지를 먼저 봐야 한다.

사람들 반응은 왜 이렇게 갈리는가?

초기 반응은 확실히 양쪽으로 갈렸다. 긍정 쪽은 “체감 지능”, “짧고 직접적인 작업 처리”, “Codex에서의 에이전트성”을 말한다. 부정 쪽은 “SWE-Bench Pro에서 Opus 4.7에 밀린다”, “가격이 올랐다”, “xhigh 모드가 느린데 체감 향상이 분명하지 않다”를 말한다. 둘 다 이유가 있다.

긍정 반응: 벤치마크보다 체감이 다르다

OpenAI 발표문에는 Dan Shipper, Pietro Schirano 등 초기 테스터의 반응이 담겼다. 핵심은 GPT-5.5가 단순 코드 작성보다 시스템의 형태, 실패 원인, 주변 영향 범위를 더 잘 파악한다는 것이다 (출처: OpenAI GPT-5.5 발표).

Reddit r/singularity에서도 “벤치마크 향상폭은 기대보다 작지만 대화와 설명의 체감은 다르다”는 반응이 나왔다. r/OpenAI의 한 초기 후기 역시 인프라·워크플로 문제에서 강하게 느꼈지만, 실제 액션 대신 액션을 예고하는 습관과 xhigh 모드의 지연을 단점으로 꼽았다 (출처: r/singularity, r/OpenAI).

부정 반응: Opus를 못 이긴 영역이 보인다

r/codex 출시 스레드에서는 바로 SWE-Bench Pro 이야기가 나왔다. GPT-5.5가 58.6%인데 Opus 4.7은 64.3%라는 지적이다 (출처: r/codex). 이 비판은 타당하다. OpenAI가 말하는 “에이전트형 코딩”과 사용자가 기대하는 “실제 PR을 한 번에 고치는 능력”은 완전히 같은 지표가 아니다.

가격 반응도 비슷하다. r/OpenAI에는 GPT-5.5 API가 GPT-5.4보다 2배 비싸다는 반응이 올라왔다 (출처: r/OpenAI). OpenAI와 Artificial Analysis가 말하는 토큰 효율 주장은 중요하지만, 사용자가 짧은 채팅이나 단순 API 호출 위주라면 체감은 “그냥 비싸졌다”에 가까울 수 있다.

긍정 반응

"실제 업무형 문제에서 더 직접적이고 덜 장황하다는 반응" — CodeRabbit, r/OpenAI
"긴 컨텍스트와 터미널 작업에서 세대 차이가 느껴진다는 반응" — OpenAI 발표, r/singularity
"Codex에서 작은 변경과 검증 루프를 더 잘 탄다는 반응" — CodeRabbit

부정 반응

"SWE-Bench Pro 기준으로 Opus 4.7을 못 넘었다는 반응" — r/codex
"API 단가 2배 인상이 먼저 보인다는 반응" — r/OpenAI
"xhigh 모드는 느린데 체감 향상이 분명하지 않다는 초기 후기" — r/OpenAI

지금 반응을 읽는 법

커뮤니티 반응은 벤치마크가 아니다. 특히 출시 당일 반응은 계정별 롤아웃, 플랜 제한, UI 상태, 프롬프트 습관, 이전 모델 대비 기대치가 섞인다. 그래서 이 글에서는 반응을 “사용자가 어디에서 가치를 느끼는가”의 힌트로만 본다.

정리하면 이렇다. GPT-5.5는 한 번에 큰 감탄을 주는 만능 모델이라기보다, 길게 맡겨놓는 작업에서 점점 차이를 보이는 모델이다. 반대로 짧은 질문과 단일 코드 패치만 보면 “이게 왜 이렇게 비싸졌지”라는 반응도 충분히 나올 수 있다.

GPT-5.5와 Opus 4.7은 어디서 갈리는가?

다음 글의 주제는 이 비교다. 여기서는 결론만 먼저 잡아두자. GPT-5.5는 터미널, 브라우징, 긴 컨텍스트, 비용 효율 쪽이 강하고, Opus 4.7은 SWE-Bench Pro, MCP Atlas, 고밀도 코드 리뷰와 자체 검증 쪽이 강하다.

GPT-5.5가 유리한 축

GPT-5.5가 확실히 앞서는 영역은 Terminal-Bench 2.0, BrowseComp, CyberGym, 긴 컨텍스트 MRCR이다. 특히 MRCR 512K-1M에서 74.0%를 찍은 점은 GPT-5.4 대비 질적으로 의미가 크다 (출처: OpenAI GPT-5.5 발표).

핵심 정리

GPT-5.5를 먼저 테스트할 작업

단순 채팅보다 실행·검색·긴 문맥이 섞인 업무에서 먼저 차이를 볼 가능성이 높다.

터미널 반복 실행 터미널 명령을 여러 번 실행하며 고치는 작업

원인 분석 긴 로그 긴 로그와 문서를 함께 읽는 원인 분석

리서치 웹 종합 웹 검색과 자료 종합이 섞인 리서치

장문맥 1M 컨텍스트 1M 컨텍스트를 실질적으로 쓰는 코드베이스 분석

Opus 4.7이 유리한 축

Opus 4.7은 SWE-Bench Pro 64.3%로 GPT-5.5의 58.6%보다 높다. MCP Atlas도 OpenAI 발표 기준 GPT-5.5 75.3%, Opus 4.7 79.1%다 (출처: OpenAI GPT-5.5 발표). 이미 Claude Opus 4.7 총정리에서 다뤘듯, Opus 4.7은 긴 코딩 세션에서 검증하고 보고하는 흐름이 강점이다.

그래서 단일 승자를 고르기보다 업무별로 나눠 쓰는 편이 낫다. GPT-5.5는 OpenAI 생태계의 Codex 작업, 터미널 자동화, 긴 컨텍스트 리서치에 먼저 넣고, Opus 4.7은 코드베이스 깊은 패치와 PR 단위 검증에 붙이는 식이다.

GPT-5.5와 Opus 4.7 업무 라우팅 맵 - GPT-5.5는 실행과 긴 문맥, Opus 4.7은 패치와 자체 검증에 강한 비교 — GPT-5.5와 Opus 4.7은 단일 승자가 아니라 실행형 업무와 패치형 업무로 나눠 라우팅하는 편이 정확하다.

다음 비교 글에서 볼 포인트

다음 글은 “GPT-5.5 vs Claude Opus 4.7”을 정면으로 다룰 예정이다. 핵심 질문은 세 가지다.

판단 기준

다음 비교 글의 세 질문

모델 이름보다 중요한 것은 같은 업무를 어느 쪽이 더 싸고 안정적으로 끝내느냐다.

속도 01

같은 코딩 업무에서 누가 더 빨리 끝내는가

첫 답변 속도보다 빌드 통과까지 걸리는 전체 시간을 봐야 한다.

비용 02

토큰 단가가 아니라 작업당 비용은 누가 낮은가

출력 토큰, 재시도, 프롬프트 캐시, 사람 검토 시간을 함께 계산한다.

워크플로 03

Codex와 Claude Code 중 무엇이 더 안정적인가

모델 성능뿐 아니라 도구 호출, 파일 편집, 테스트 루프, 권한 모델까지 비교한다.

저렴한 대안까지 넣으면 판이 더 복잡해진다. 예산이 더 중요하다면 GLM 5.1 후기와 Kimi K2.6 완전분석도 같이 봐야 한다.

한계와 주의점은 무엇인가?

GPT-5.5는 분명 강해졌지만, 위험한 오해도 있다. API 접근 상태, 환각, 안전 거절, 벤치마크와 실전 사이의 차이를 분리해서 봐야 한다.

API는 가격 공개와 사용 가능이 다르다

가장 먼저 확인할 점은 API다. OpenAI는 gpt-5.5와 gpt-5.5-pro를 Responses API와 Chat Completions API에 곧 제공한다고 했지만, 출시일 기준 “지금 모든 개발자가 바로 쓸 수 있다”는 말은 아니다 (출처: OpenAI GPT-5.5 발표).

블로그나 커뮤니티 글 중에는 API가 이미 열린 것처럼 쓰인 글도 보인다. 상용 배포 계획을 잡을 때는 OpenAI 가격 페이지와 모델 페이지를 다시 확인해야 한다.

환각률 지표는 냉정하게 봐야 한다

Artificial Analysis는 GPT-5.5가 Intelligence Index에서 3점 차로 1위에 올랐다고 밝혔다. 동시에 AA-Omniscience에서는 정확도가 높지만 환각률이 86%로, Opus 4.7 Max의 36%, Gemini 3.1 Pro Preview의 50%보다 높다고 지적했다 (출처: Artificial Analysis).

이 숫자는 특정 벤치마크의 결과다. 모든 지식 질문에서 86% 환각한다는 뜻은 아니다. 하지만 “모르는 것을 모른다고 말하는 능력”은 여전히 과제라는 신호로 봐야 한다. GPT-5.5를 리서치 파트너로 쓸 때는 출처 확인, 반례 검색, 원문 링크 검증이 필수다.

안전 가드레일은 마찰을 만들 수 있다

OpenAI 시스템 카드 요약은 GPT-5.5가 사이버보안·생물학 관련 사전 배포 평가, 외부 레드팀, 약 200개 사전 접근 파트너의 피드백을 거쳤다고 설명한다 (출처: OpenAI GPT-5.5 System Card). OpenAI 발표문도 사이버와 생물·화학 능력을 Preparedness Framework 기준 High 등급으로 다뤘고, 신뢰된 방어 목적 사용자에게 별도 접근 경로를 제공한다고 밝혔다.

좋은 일만은 아니다. 방어 목적 보안 업무를 하는 팀은 불필요한 거절을 경험할 수 있다. OpenAI가 Trusted Access for Cyber라는 별도 접근 경로를 둔 이유도 이 마찰을 줄이기 위해서다. 따라서 보안 업무용 GPT-5.5 도입은 모델 성능뿐 아니라 계정 신뢰 신호, 접근 권한, 감사 로그까지 같이 설계해야 한다.

어떤 팀이 먼저 써야 하나?

GPT-5.5를 가장 먼저 테스트할 팀은 “AI가 실제로 뭔가를 실행하고 검증하는” 워크플로를 가진 팀이다. 단순 챗봇, 요약, 짧은 고객 응대라면 GPT-5.4 mini나 기존 모델이 더 합리적일 수 있다.

먼저 테스트할 팀

아래에 해당하면 GPT-5.5가 바로 가치가 있을 가능성이 높다.

판단 기준

GPT-5.5를 먼저 테스트할 팀

핵심은 AI가 답만 하는지, 아니면 실행·검증·수정을 한 흐름으로 맡는지다.

개발팀 01

Codex로 구현·리팩터링·테스트를 맡기는 팀

터미널 명령과 코드 수정이 이어지는 업무에서 GPT-5.5의 장기 실행 능력을 바로 확인할 수 있다.

플랫폼팀 02

긴 로그와 코드베이스를 함께 읽는 팀

장애 분석, 배포 로그, 대형 레포 탐색처럼 문맥이 긴 작업에서 효과가 날 수 있다.

운영팀 03

리서치·문서·스프레드시트를 묶고 싶은 팀

자료 조사, 표 정리, 문서 초안까지 한 흐름으로 자동화하려는 팀에 맞다.

보안팀 04

터미널·브라우저·파일 시스템을 오가는 팀

방어 목적 자동화는 성능과 함께 접근 권한, 감사 로그, 거절 정책까지 함께 설계해야 한다.

아직 기다려도 되는 팀

반대로 아래 팀은 천천히 가도 된다.

판단 기준

아직 기다려도 되는 팀

GPT-5.5의 장점이 장기 실행에 몰려 있다면, 짧고 반복적인 작업은 더 싼 모델이 맞을 수 있다.

짧은 작업 01

Q&A·번역·요약이 대부분인 팀

출력 토큰이 크게 줄지 않는 업무라면 단가 2배 인상이 그대로 체감될 수 있다.

비용 민감 02

예산이 작고 출력 토큰이 많은 서비스

고객 응대, 대량 요약, 콘텐츠 생성처럼 출력량이 많은 서비스는 먼저 비용 실험이 필요하다.

충분한 품질 03

GPT-5.4 mini로 이미 충분한 내부 도구

품질 병목이 없으면 모델 교체보다 프롬프트, 캐시, 라우팅 최적화가 먼저다.

고위험 04

사람 검증이 없는 의사결정 업무

환각과 출처 검증 문제가 남아 있으므로 금융·법률·보안 의사결정은 검토 단계를 남겨야 한다.

GPT-5.5 도입 판단 게이트 인포그래픽 - 먼저 테스트할 팀과 기다려도 되는 팀을 실행형 워크플로 기준으로 나눈 비교 — 도입 판단의 기준은 모델 이름이 아니라, 실행·검증·재시도 루프가 실제 업무에 있는지다.

업무	추천 모델	이유
터미널 기반 디버깅	GPT-5.5	Terminal-Bench 2.0 강점과 긴 실행 루프
PR 단위 코드 수정	Opus 4.7도 함께 테스트	SWE-Bench Pro에서 Opus 우세
긴 문서·코드베이스 리서치	GPT-5.5	MRCR 512K-1M 개선 폭이 큼
대량 저비용 코딩	GLM 5.1 / Kimi K2.6 검토	프런티어 모델 대비 비용 절감
정확도 최우선 단발 분석	GPT-5.5 Pro 제한 사용	출력 $180이므로 남용 금지
로컬·오프라인 요구	Gemma 계열 검토	클라우드 API 의존도 낮춤

실전 도입 순서

기존 로그를 모은다

GPT-5.4 또는 Opus로 처리했던 실제 작업 200건 이상을 샘플링한다.

작업당 비용을 비교한다

입력 토큰, 출력 토큰, 재시도 횟수, 최종 성공률을 함께 기록한다.

라우팅 기준을 만든다

터미널 작업은 GPT-5.5, PR 검증은 Opus 4.7처럼 업무별 기본 모델을 정한다.

사람 검토 구간을 남긴다

리서치, 보안, 금융, 법률 업무는 출처와 결과를 사람이 확인하는 단계를 유지한다.

FAQ: GPT-5.5에 대해 자주 묻는 질문은?

GPT-5.5 API는 지금 바로 쓸 수 있나?

2026년 4월 24일 기준으로 가격은 공개됐지만 OpenAI는 API 제공을 곧 시작하겠다고 밝혔다. ChatGPT와 Codex 유료 플랜 배포와 API 일반 제공은 분리해서 봐야 한다.

GPT-5.5는 무료 사용자도 쓸 수 있나?

공식 발표 기준으로 GPT-5.5는 Plus, Pro, Business, Enterprise 등 유료 플랜 중심으로 배포된다. 무료 사용자 제공 일정은 명확히 공개되지 않았다.

GPT-5.5가 Claude Opus 4.7보다 코딩을 더 잘하나?

작업에 따라 다르다. Terminal-Bench 2.0은 GPT-5.5가 앞서지만 SWE-Bench Pro와 MCP Atlas는 Opus 4.7이 앞선다. 단일 승자보다 업무별 라우팅이 맞다.

가격은 정말 2배 오른 건가?

토큰 단가는 GPT-5.4 대비 입력과 출력 모두 2배다. 다만 Artificial Analysis는 출력 토큰 감소 때문에 자사 인덱스 실행 비용 상승이 약 20%였다고 분석했다.

GPT-5.5 Pro는 언제 써야 하나?

100만 출력 토큰당 $180인 매우 비싼 티어라 대량 코딩에는 맞지 않는다. 오답 비용이 큰 고난도 리서치, 금융, 법률, 과학 분석에 제한적으로 쓰는 편이 낫다.

GPT-5.5가 환각을 줄였나?

일부 지표에서는 지식 정확도가 좋아졌지만 Artificial Analysis는 AA-Omniscience에서 높은 환각률을 지적했다. 리서치용으로 쓸 때는 원문 확인이 여전히 필요하다.

결론: GPT-5.5는 지금 써볼 만한가?

GPT-5.5는 써볼 만하다. 특히 Codex, 터미널 자동화, 긴 컨텍스트 리서치, 실무 문서 작업에서는 바로 테스트할 가치가 있다. 다만 “모든 코딩에서 Opus 4.7을 이겼다”거나 “가격이 2배라도 실제 비용은 무조건 비슷하다”는 식으로 받아들이면 안 된다.

한 문장 결론

GPT-5.5는 짧은 답변 모델이 아니라 장기 실행 업무 모델이다. 터미널과 긴 컨텍스트에서는 강하고, SWE-Bench Pro와 MCP 도구 호출에서는 Opus 4.7과 정면 승부가 필요하다.

먼저 이렇게 보면 됩니다

GPT-5.5는 정확히 무엇이 달라졌나?

출시일과 배포 범위

GPT-5.4와 역할이 어떻게 다른가?

GPT-5.5는 세 가지 기준으로 봐야 한다

왜 “에이전트 모델”이라고 부르나

벤치마크에서 GPT-5.5는 어디가 강한가?

벤치마크는 한 줄 순위가 아니라 세 묶음으로 읽어야 한다

코딩: Terminal-Bench는 압승, SWE-Bench Pro는 애매

코딩 벤치마크는 두 갈래로 갈린다

컴퓨터 사용과 브라우징: 실무 에이전트에 가까워졌다

도구 사용과 업무형 지표

긴 컨텍스트: 1M 근처에서 점프가 크다

긴 문맥과 고난도 추론은 격차가 더 선명하다

가격은 정말 GPT-5.4보다 2배 비싼가?

GPT-5.5 비용은 가격표만 보면 안 된다

공개 API 가격표

단가 2배와 작업당 비용은 다르다

출력 비용은 이렇게 바뀐다

비용 비교에서 조심할 점

Codex 사용자는 지금 바로 GPT-5.5로 바꿔야 하나?

GPT-5.5가 잘 맞는 Codex 작업

Codex에서 먼저 붙여볼 작업

CodeRabbit 초기 테스트가 말하는 것

고속 모드는 누구에게 맞나

고속 모드는 대기 시간을 줄이는 유료 옵션이다

사람들 반응은 왜 이렇게 갈리는가?

긍정 반응: 벤치마크보다 체감이 다르다

부정 반응: Opus를 못 이긴 영역이 보인다

지금 반응을 읽는 법

GPT-5.5와 Opus 4.7은 어디서 갈리는가?

GPT-5.5가 유리한 축

GPT-5.5를 먼저 테스트할 작업

Opus 4.7이 유리한 축

다음 비교 글에서 볼 포인트

다음 비교 글의 세 질문

한계와 주의점은 무엇인가?

API는 가격 공개와 사용 가능이 다르다

환각률 지표는 냉정하게 봐야 한다

안전 가드레일은 마찰을 만들 수 있다

어떤 팀이 먼저 써야 하나?

먼저 테스트할 팀

GPT-5.5를 먼저 테스트할 팀

아직 기다려도 되는 팀

아직 기다려도 되는 팀

실전 도입 순서

FAQ: GPT-5.5에 대해 자주 묻는 질문은?

결론: GPT-5.5는 지금 써볼 만한가?

다음에 읽을 글

카파시가 경고한 AI 코딩의 악습 4가지, 10만 스타 CLAUDE.md의 정체

Claude Opus 4.7 총정리 - 벤치마크·가격·GPT-5 비교 (2026)

Gemma 4 완전 정리: 벤치마크, 한국어 성능, 로컬 설치까지