GLM 5.1 후기 2026: Claude Code 비용 1/5로 줄이는 법

GLM 5.1을 Claude Code에 붙여 Opus 대비 1/5 비용으로 쓰는 법부터, Z.AI 구독형 API·Vision MCP·GLM-Image 라인업까지 공식 문서 기준으로 정리.

GLM 5.1 실전 후기 썸네일

빠른 결론

먼저 이렇게 보면 됩니다

약 58분 읽기

한 줄 판단

GLM 5.1을 Claude Code에 붙여 Opus 대비 1/5 비용으로 쓰는 법부터, Z.AI 구독형 API·Vision MCP·GLM-Image 라인업까지 공식 문서 기준으로 정리.

읽을 사람
도구를 고르기 전에 비용과 한계를 확인하려는 독자
확인 기준
GLM 5.1 · Z.AI · Claude Code
주의할 점
가격과 기능은 바뀔 수 있습니다. 공식 안내도 함께 확인하세요.

3줄 요약

  • GLM 5.1은 Z.AI(지푸 AI)가 2026년 4월 MIT 라이선스로 공개한 754B MoE 오픈웨이트 모델로, SWE-Bench Pro 58.4점을 찍으며 Claude Opus 4.6과 GPT-5.4를 꺾었다.
  • Z.AI Coding Plan 월 $18(Lite) ~ $160(Max) 구독으로 Claude Code·Cline·OpenCode 같은 공식 지원 툴에서 전용 API 키를 발급받아 바로 연결할 수 있고, 일반 API 가격도 Opus 4.6 대비 1/5.7 수준이다.
  • GLM 5.1 자체는 텍스트 전용이지만 Z.AI 전체 스택에는 GLM-5V-Turbo 비전 코딩 모델, Vision MCP, GLM-Image까지 있어 “싼 코딩 모델 하나” 이상으로 볼 만하다.
목차
  1. GLM 5.1은 실제로 Claude Opus 4.6을 꺾었을까?
  2. GLM 5.1 핵심 스펙 — 754B MoE가 Claude 5.7배 싼 이유
  3. SWE-Bench Pro 1위의 실체 — 벤치마크를 뜯어본다
  4. GLM 4.6에서 5.1로, 무엇이 달라졌나
  5. Z.AI Coding Plan 가격 — 월 $18부터 $160까지
  6. Claude Code에 GLM 5.1 붙이는 3가지 방법
  7. GLM 5.1만 보면 반쪽이다 — 비전 모델과 이미지 생성 모델
  8. GLM 5.1의 한계 — 벤치마크가 말하지 않는 것
  9. Z.AI 가입 절차와 초대코드 혜택
  10. 커뮤니티 반응 — 해외와 국내가 갈린다
  11. 트러블슈팅 Q&A
  12. 결론: 누가 지금 GLM 5.1을 써야 할까

GLM 5.1은 실제로 Claude Opus 4.6을 꺾었을까?

결론부터 말하면 “오픈웨이트 중에선 왕, 프론티어와는 여전히 격차”라는 답이 가장 정확하다. GLM 5.1이 출시 시점(2026-04-07)에 SWE-Bench Pro에서 58.4점을 기록하며 당시 현역이던 Claude Opus 4.6(57.3)과 GPT-5.4(57.7)를 0.7–1.1포인트 차이로 제친 건 수치로 확인된다(출처: Z.AI 공식 기술 리포트). 다만 그로부터 9일 뒤인 4월 16일 Claude Opus 4.7 총정리가 출시되며 상황은 다시 뒤집혔다. Opus 4.7은 SWE-Bench Pro 64.3, SWE-Bench Verified 87.6으로 GLM 5.1보다 각각 5.9 · 9.8포인트 앞선다(출처: Anthropic 공식). Artificial Analysis Intelligence Index(v4.0 신 방법론) 기준으로도 Opus 4.7·GPT-5.4·Gemini 3.1 Pro가 57점으로 공동 1위, GLM 5.1은 51점으로 6점 뒤에 붙어 있다(출처: Artificial Analysis).

한 줄 요약: 코딩 전용 오픈웨이트의 새 왕

GLM 5.1은 중국 Zhipu AI(지푸 AI)가 2026년 3월 27일 Coding Plan 형태로 선공개하고, 4월 7일 HuggingFace에 MIT 라이선스 오픈웨이트로 풀어둔 모델이다. 총 파라미터 754B에 활성 40B짜리 MoE(Mixture of Experts)고, 200K 컨텍스트·128K 출력·텍스트 전용이다. 핵심 포인트는 라이선스·가격·코딩 성능 3박자가 맞물렸다는 것이다. MIT라 상업적 재학습·배포가 자유롭고, API 기준 입력 1M 토큰당 $1.40로 Opus 4.6의 $5.00 대비 28% 수준이며, SWE-Bench Pro·BrowseComp·Terminal-Bench 2.0에서 오픈웨이트 SOTA를 달고 있다.

왜 지금 이 글을 읽어야 하나

이전 세대 GLM 4.x를 가성비 대안으로 보던 흐름에서, 최근 관심은 자연스럽게 상위 모델인 GLM 5.1로 넘어왔다. 필자도 Claude Code Max와 Coding Plan Pro($72/mo)를 번갈아 3주 정도 써보면서 체감 차이를 정리해봤고, 개인 결론은 “일상 코딩 상당수는 GLM 쪽으로 옮길 수 있지만, 어려운 아키텍처 판단은 여전히 Claude Opus 4.7 총정리가 더 안전하다”는 쪽이다. 이 글은 그 경험과 공식 문서를 함께 묶어 벤치마크·비용·세팅·함정을 정리한다.

이 글이 다루는 범위

  • 벤치마크 실체: SWE-Bench Pro·Verified·Terminal-Bench·AIME·GPQA 원본 수치와 신뢰도 검증
  • 가격 구조: Z.AI Coding Plan 3개 티어와 API 토큰 단가, OpenRouter 경유 여부 비교
  • 실전 세팅: Claude Code에 환경변수로 직접 붙이기, Claude Code Router(CCR)로 모델별 라우팅, API 직접 호출
  • 공식 문서 기준 보강: Coding Plan API 사용 범위, Vision MCP, GLM-5V-Turbo, GLM-Image 라인업 재점검
  • 한계와 커뮤니티 반응: HackerNews·Reddit·Medium에서 나온 부정적 리포트 원문 인용

GLM 5.1 핵심 스펙 — 754B MoE가 Claude 5.7배 싼 이유

GLM 5.1의 가격 경쟁력은 “큰 모델을 띄엄띄엄 쓴다”는 MoE 설계에서 나온다. 총 754B 파라미터 중 토큰당 활성은 40B뿐이다.

아키텍처: MoE + DSA 조합

256개의 expert 중 쿼리마다 8개만 라우팅하는 희소 활성 구조를 쓰고, 여기에 DeepSeek가 GLM 팀과 공유한 DSA(DeepSeek Sparse Attention)를 얹었다. DSA는 긴 컨텍스트에서 KV 캐시 압축 효율을 끌어올리는 기술로, GLM 5.1이 200K 컨텍스트를 유지하면서도 추론 단가를 낮출 수 있던 배경이다(출처: Z.AI 기술 리포트). 훈련은 28.5T 토큰으로, 흥미롭게도 NVIDIA GPU가 아닌 Huawei Ascend 910B 10만 칩으로 수행되었다(출처: VentureBeat). 미·중 반도체 규제 국면에서 국산화 레퍼런스로 거론되는 대목이다.

SWE-Bench Pro 2026 벤치마크 — GLM 5.1 58.4점으로 상위권 경쟁 모델 대비 비교
SWE-Bench Pro 2026 리더보드 — GLM 5.1이 오픈웨이트 SOTA에 진입했다

대표 경쟁 모델과의 스펙 비교

항목 GLM 5.1 Claude Opus 4.7 Kimi K2.6 GPT-5.4
총 파라미터 754B MoE 비공개 1T MoE 비공개
활성 파라미터 40B (8/256) 비공개 32B 비공개
컨텍스트/출력 200K / 128K 1M / 128K 256K / 128K 400K / 128K
멀티모달 텍스트 전용 텍스트+이미지 텍스트+이미지 텍스트+이미지+오디오
라이선스 MIT 오픈웨이트 독점 Modified MIT 독점
API 입력 $/1M 1.40 5.00 0.60 1.25
API 출력 $/1M 4.40 25.00 2.50 10.00

(출처: Z.AI 가격, Anthropic 가격, Moonshot, OpenAI)

5.7배라는 숫자가 실제 비용에서 의미하는 것

Opus 4.7 대비 출력 단가 5.7배라는 숫자는 같은 작업을 반복할 때 차이가 누적된다. Claude Code로 하루 5시간 바이브코딩을 하면 출력 토큰 기준 200만 토큰은 쉽게 찍는 수준인데, 이 워크로드를 API 직접 과금으로 풀면 아래처럼 벌어진다.

월 비용 환산 — 출력 200만 토큰 · 하루 5시간 기준

  • Claude Opus 4.7 API 직접: 약 월 $1,500
  • GLM 5.1 API 직접: 약 월 $264 (캐시 히트 끼우면 $50 이하)
  • Z.AI Coding Plan Pro 구독: 월 $72 (사실상 무제한 체감)

다만 이 차이가 Opus의 판단력까지 5.7배 저렴하게 산다는 뜻은 아니다. 뒤에서 벤치마크로 다시 짚는다. 동급 가격대에서 비교하려면 Kimi K2.6 완전분석을 함께 보면 관점이 잡힌다.

SWE-Bench Pro 1위의 실체 — 벤치마크를 뜯어본다

벤치마크 한두 개만 이기고 SOTA를 외치는 경우가 많으니, 코딩·추론·에이전트·장기 실행을 골고루 본다.

코딩: SWE-Bench Pro에서 0.7점 차 1위, Verified에서는 5위권

벤치마크 GLM 5.1 Claude Opus 4.7 Kimi K2.6 GPT-5.4 Gemini 3.1 Pro
SWE-Bench Pro 58.4 64.3 58.6 57.7 54.2
SWE-Bench Verified 77.8 87.6 80.2 78.2
Terminal-Bench 2.0 63.5 69.4 75.1 68.5
BrowseComp 68.0 79.3 89.3
AIME 2026 95.3 미공개 98.7 98.2
GPQA Diamond 86.2 94.2 87.6 94.4 94.3

(출처: Z.AI 공식 리포트, benchlm.ai, artificialanalysis.ai)

SWE-Bench Pro는 실제 오픈소스 저장소에서 뽑은 버그 이슈를 LLM이 직접 고쳐 PR을 제출하는 벤치마크다. GLM 5.1의 58.4는 출시 시점에 전체 2위(Kimi K2.6 58.6 다음)였지만, 4월 16일 공개된 Claude Opus 4.7이 64.3으로 치고 올라오면서 GLM 5.1은 오픈웨이트 SOTA, 프론티어 포함 3위로 재조정됐다. 조금 더 정제된 SWE-Bench Verified에서는 77.8로 Claude Opus 4.7(87.6) · Sonnet 4.6(79.6) · Kimi K2.6(80.2) · GPT-5.4(78.2)에 모두 밀리며 5위권이다. 즉 코딩 최상위권이되 프론티어급 완성도는 아직이라는 해석이 적절하다.

추론·수학: 상위권이되 1위는 아님

AIME 2026에서 GLM 5.1은 95.3으로 GPT-5.4(98.7) · Gemini 3.1 Pro(98.2) · Opus 4.6(95.6, Opus 4.7은 AIME 수치 미공개)에 이은 4위다. 무시할 수준은 아니지만 수학 경시대회 난이도에서 3–4% 정도 격차가 존재한다. GPQA Diamond(박사급 과학 추론)는 더 벌어진다. GLM 5.1 86.2 vs Opus 4.7 94.2 · Gemini 3.1 Pro 94.3으로 8포인트 차이가 난다. 복잡한 과학·의학·법률 추론이 주된 작업이라면, 단가가 조금 비싸도 Opus 4.7이나 Gemini 쪽 선택이 안전하다.

에이전트·장기 실행: Vending Bench 2는 여전히 Opus가 앞선다

Vending Bench 2는 8시간 연속 자율 판매·재고·가격 결정 시뮬레이션으로 장기 일관성을 본다. Claude Opus 4.6이 $8,017을 벌 때 GLM 5.1은 $5,634로 약 70% 수준이다(출처: VentureBeat). 다만 Kimi K2.6($1,198) · DeepSeek V3.2($1,034)와 비교하면 GLM 5.1이 오픈웨이트 중에서 압도적으로 장기 실행에 강하다. Z.AI가 “8시간 자율 실행, 1,700 스텝 연속 작업”을 마케팅 포인트로 잡은 근거가 이쪽이다.

웹 에이전트: BrowseComp에서 GLM 5가 쌓은 장점이 이어짐

BrowseComp는 실제 웹을 서핑해 정답을 찾는 벤치마크다. GLM 5.1 68.0은 전세대 GLM 5(62.0) · DeepSeek V3.2(51.4)를 넉넉히 앞선다. Claude Code에서 로컬 개발과 웹 리서치를 함께 시키는 워크플로에는 체감이 꽤 온다.

벤치마크는 절대값이 아니다

⚠️ 주의: Z.AI 공식 리포트의 SWE-Bench Pro 수치는 자체 셋업이다. r/LangChain 등 일부 커뮤니티에서는 GLM 5.1이 Opus 4.6을 0.7–1.1포인트 앞섰다는 결과가 훈련 데이터 오염 때문 아니냐는 의혹이 올라왔다(출처: r/LangChain). 실전 워크로드는 본인의 레포로 직접 재봐야 한다.

GLM 4.6에서 5.1로, 무엇이 달라졌나

2025년 9월 30일 출시된 GLM 4.6은 아직도 Claude Code Router 사용자들이 Haiku 대체로 애용하는 모델이다. 5.1로 넘어오면서 바뀐 포인트를 정리한다.

파라미터·아키텍처: 355B → 754B, expert 구조 교체

GLM 4.6은 355B MoE · 32B active였고, 5.1은 754B · 40B로 총량은 2.1배, 활성은 1.25배로 뛰었다. 대신 expert 숫자가 크게 늘어 얇고 많은 expert 방향으로 갔다. 덕분에 동일 활성 파라미터 대비 전문 도메인 적중이 개선됐고, GLM 5.1의 BrowseComp·SWE-Bench Pro 상승 폭이 이 구조 변경과 맞물린다.

GLM 모델 진화 타임라인 — 2025-09 GLM 4.6부터 2026-04 GLM 5.1 오픈웨이트 공개까지
GLM 4.6 → 5 → 5.1 타임라인과 SWE-Bench Pro 점수 상승 추이

벤치마크 점프 폭

벤치마크 GLM 4.6 GLM 5.1 점프 폭
SWE-Bench Verified 68.0 77.8 +9.8
Terminal-Bench 2.0 (대비 GLM 5) 56.2 63.5 +7.3
BrowseComp (대비 GLM 5) 62.0 68.0 +6.0
AIME 2026 (대비 GLM 5) 95.4 95.3 -0.1
Vending Bench 2 수익 ($) 4,432 5,634 +27%

SWE-Bench Verified 기준으로 GLM 4.6 68.0 → GLM 5.1 77.8로 9.8포인트 상승했다. Terminal-Bench 2.0은 GLM 5 56.2 → GLM 5.1 63.5로 +7.3이다. 세대 교체 한 번에 오픈웨이트 SOTA 구간으로 진입했다는 표현이 과장이 아니다. 새로 세팅을 잡는 관점에서 보면, 4.6을 메인으로 고집할 이유는 예산 최저선을 극단적으로 깎아야 하는 경우로 많이 좁아졌다.

라이선스·배포 정책 변화

GLM 4.6은 MIT 기반이되 일부 상업 제한 문구가 있었지만, 5.1은 완전한 MIT로 공개되었다. 재학습·파인튜닝·재배포·상업 이용에 제약이 없다. 오픈소스 LLM 라이선스 지형 전체를 보려면 Gemma 4 완전 정리와 묶어서 보면 구글·중국·메타의 라이선스 정책 차이를 체감할 수 있다.

Z.AI Coding Plan 가격 — 월 $18부터 $160까지

GLM 5.1을 가장 싸게 쓰는 경로는 API가 아니라 Coding Plan 구독이다.

3개 티어 가격과 쿼터

플랜 월간 결제 분기 결제 환산(약 10% 할인) 5시간 프롬프트 주당 월당
Lite $18 약 $16/mo 80 400 1,600
Pro $72 약 $65/mo 400 2,000 8,000
Max $160 약 $144/mo 1,600 8,000 32,000

(출처: Z.AI Coding Plan 공식 페이지, Z.AI Devpack Overview)

Z.AI Coding Plan 공식 구독 페이지 — Lite $18, Pro $72, Max $160 월간 요금제 3개 카드
z.ai/subscribe 공식 페이지에서 확인되는 월간 요금 — 분기(-10%)·연간(-20%) 토글도 동일 화면에 존재

현재 공개 가격표 기준으로 Lite는 월 $18, Pro는 $72, Max는 $160이다. 분기 결제 토글 기준으로는 Lite가 월 $16 전후, Pro가 $65 전후, Max가 $144 전후까지 내려간다. 요금제와 프로모션은 자주 바뀔 수 있으니 결제 직전 공식 구독 페이지에서 최종 금액을 재확인하는 편이 안전하다. 여기서 주의할 점은 1 프롬프트의 정의다. Z.AI는 사용자가 IDE에 한 번 타이핑해서 엔터 친 단위를 1 프롬프트로 세지만, 내부적으로는 그 한 번의 요청이 15–20회 모델 호출로 확장되는 경우가 흔하다(툴 호출·사고 체인 포함). 따라서 Lite 400 프롬프트/주는 가볍게 40–50개 이슈 해결 정도이고, Pro 2,000은 하루 종일 Claude Code 수준이다.

GLM 5.1 API 단가와 Z.AI Coding Plan 요금제 비교 — Claude Opus 4.6 대비 5.7배 저렴
API 단가 비교와 Z.AI Coding Plan Lite/Pro/Max 티어 쿼터

구독과 일반 API는 공존한다 — 핵심은 Plan 쿼터와 별도 과금의 구분

공식 Quick Start와 Devpack 문서를 같이 보면, Coding Plan 구독자는 구독 후 API 키를 발급받아 Claude Code에서는 https://api.z.ai/api/anthropic, 그 외 공식 지원 툴에서는 https://api.z.ai/api/coding/paas/v4를 통해 모델을 호출할 수 있다. 이게 중요한 이유는 월정액 구독과 키 기반 설정이 동시에 성립한다는 뜻이기 때문이다. 즉 “구독형이라서 웹 UI에서만 쓴다”가 아니라, 평소 쓰던 코딩 툴의 base URL과 key에 그대로 꽂아 넣는 흐름이 가능하다(출처: Z.AI Quick Start, Z.AI Coding Plan Quick Start).

다만 2026년 5월 4일 기준 공식 문서는 이 지점에서 표현이 약간 엇갈린다. Overview, Usage Policy, FAQ는 Coding Plan의 구독 혜택과 쿼터는 공식 지원 툴 안에서만 쓴다고 강조하고, API 호출은 별도 과금이라고 적는다. 반면 TRAE 연동 문서는 Z.ai-planZ.ai를 명시적으로 구분하면서, Z.ai-plan은 Plan 쿼터를 쓰고 Z.aigeneral API로 라우팅되어 balance에서 standard pricing으로 차감된다고 설명한다. 그래서 지금 시점에 더 정확한 해석은 “범용 API 호출 자체가 불가능하다”가 아니라, “일반 API 호출은 가능할 수 있지만 Coding Plan 포함 혜택으로 보는 건 부정확하고, 별도 과금 경로로 이해해야 한다”에 가깝다(출처: Z.AI Coding Plan Overview, Z.AI Usage Policy, Z.AI Coding Plan FAQ, Z.AI TRAE Guide).

피크 시간 3배 차감은 한국 오후 내내

Z.AI는 UTC+8 기준 14–18시에 GLM 5.1 쿼터를 3× 차감한다. 한국 시간으로는 15–19시가 피크 구간이라 오후 내내 평소의 1/3 용량만 쓸 수 있다. 반대로 오프피크(피크 외 시간)는 원래 2× 차감인데, 공식 문서 기준으로 2026년 6월 말까지는 한시적으로 1×만 깎는다. 한국 개발자 입장에서는 피크 시간을 피해 새벽·오전에 몰아서 쓰는 루틴이 쿼터를 3배 아끼는 길이다(출처: Z.AI Coding Plan Overview, Z.AI Coding Plan FAQ).

API 직접 호출이 유리한 경우

단발성 요청, 배치 파이프라인, 자체 앱 임베딩이라면 Coding Plan이 아니라 API가 낫다. GLM 5.1은 Z.AI 공식 API에서 입력 $1.40/1M, 캐시 입력 $0.26/1M, 출력 $4.40/1M이다. OpenRouter를 경유하면 입력 $1.05 · 출력 $3.50로 본사보다 오히려 싸다(출처: OpenRouter GLM-5.1). 다만 OpenRouter는 캐시를 걸 수 없어 반복 컨텍스트가 많은 워크로드(Claude Code 스타일)에선 캐시 히트가 가능한 Z.AI 본사 API가 결국 더 싸다.

개인 테스트 메모: $72/mo가 체감상 어디까지 대체하나

필자 개인 테스트 기준으로는, 3주간 Pro 플랜에서 하루 5시간 안팎의 Claude Code 워크플로를 돌렸을 때 대부분의 일상 작업은 GLM 쪽에서 처리됐다. 막히는 구간은 복잡한 리팩터링이나 20분 이상 자율 실행 같은 장기 과제에 몰렸다. 정량 벤치마크라기보다 개인 워크플로 관찰치에 가깝고, 실제 체감은 레포 크기와 작업 유형에 따라 달라질 수 있다.

Claude Code에 GLM 5.1 붙이는 3가지 방법

Z.AI가 Coding Plan을 전략적으로 설계한 핵심이 Anthropic API 호환 엔드포인트다. 공식 문서 기준 최소 세팅은 ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL, API_TIMEOUT_MS 3개고, 여기에 모델 슬롯 매핑만 추가하면 Claude Code 백엔드를 GLM 5.1로 바꿀 수 있다.

방법 1: Claude Code에 GLM 5.1 붙이기 (Z.AI 공식 권장)

Z.AI Coding Plan에서 API 키를 발급받은 뒤, 아래 두 경로 중 하나로 Claude Code에 연결한다. 영구 사용이면 1-a, 하루만 써볼 실험이면 1-b가 적절하다.

1-a. ~/.claude/settings.json 영구 세팅 (권장)

Claude Code의 공식 설정 파일에 JSON 한 덩어리를 꽂는다. 재부팅·새 터미널·Windows/macOS/Linux 어디서든 한 번 세팅하면 유지된다. Z.AI가 GLM Coding Plan Quick Start에서 안내하는 방식이다. 공식 문서의 최소 예시는 인증 토큰·base URL·timeout까지만 넣고, 아래 예시는 여기에 GLM-5.1 고정용 모델 매핑을 더한 실전형 설정이다.

{
  "env": {
    "ANTHROPIC_AUTH_TOKEN": "zai-xxxxxxxxxxxxxxxx",
    "ANTHROPIC_BASE_URL": "https://api.z.ai/api/anthropic",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "GLM-5.1",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "GLM-5.1",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "GLM-4.7",
    "API_TIMEOUT_MS": "3000000"
  }
}
~/.claude/settings.json 편집 화면 — Z.AI 엔드포인트와 Opus·Sonnet·Haiku 슬롯에 GLM-5.1·GLM-4.7 매핑
VS Code로 연 ~/.claude/settings.json. env 블록에 6개 키를 넣고 저장하면 끝

각 키가 하는 일:

  • ANTHROPIC_AUTH_TOKEN · ANTHROPIC_BASE_URL — Z.AI API 키와 Anthropic 호환 엔드포인트
  • ANTHROPIC_DEFAULT_OPUS_MODEL / SONNET / HAIKU — Claude Code 내부의 3개 모델 슬롯(Opus=어려운 판단, Sonnet=일반 코딩, Haiku=빠른 요약·자동완성)에 각각 어떤 GLM 모델을 연결할지 지정. 무거운 작업은 GLM-5.1, 가벼운 자동완성은 더 저렴한 GLM-4.7로 분리하면 쿼터를 아낄 수 있다. CCR 없이도 기본 슬롯 라우팅은 여기서 바로 끝난다.
  • API_TIMEOUT_MS: 3000000 — 50분 타임아웃. GLM 5.1의 장시간 자율 실행 중간에 끊기지 않도록 여유를 주는 값

파일을 만든 뒤 새 터미널에서 claude를 실행하면 적용된다. 기존 settings.json이 있다면 env 객체만 병합 추가하고 통째로 덮어쓰지 않는다.

Claude 원상복구 방법

GLM을 끄고 Anthropic 공식 엔드포인트로 돌아가려면 settings.jsonenv 객체를 삭제하거나 파일 자체를 비운 뒤(JSON은 주석 미지원) 새 터미널에서 claude를 재실행하면 된다. 3개 모델 슬롯 매핑도 함께 초기화된다. 여러 프로바이더를 작업별로 세밀하게 섞어 쓰려면 다음의 CCR 방식이 더 유연하다.

Claude Code v2.1.118에서 '지금 모델 뭐야?' 질문에 GLM-5.1이 응답한 터미널 화면
상단 상태 줄에 'GLM-5.1 · API Usage Billing'이 뜨면 settings.json 설정이 제대로 적용된 것

1-b. 환경변수로 임시 테스트

“하루만 GLM으로 써볼까” 또는 “GLM vs Claude A/B 비교” 같은 실험용이면 셸에 직접 export하는 편이 빠르다. 터미널을 닫으면 자동으로 Claude 엔드포인트로 복귀한다.

export ANTHROPIC_AUTH_TOKEN="zai-xxxxxxxxxxxxxxxx"
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
claude

zsh를 쓰는 유저는 ~/.zshrc, bash~/.bashrc에 영구 등록할 수도 있지만 그 경우 Claude Code 외 다른 도구에도 영향을 주므로, 영구 사용이면 위 1-a를 권장한다. Claude Code 자체의 일반 세팅은 Claude Code 완전 정복에 정리해뒀다.

방법 2: Claude Code Router(CCR)로 작업별 라우팅

Claude Code Router는 Claude Code가 내부적으로 호출하는 Haiku용 · Sonnet용 모델을 각각 다른 백엔드로 라우팅해주는 프록시다. 실전에서는 아래 조합이 가성비가 높다.

  • Haiku(자동 완성·요약) → GLM 4.7 (저렴한 초경량 모델)
  • Sonnet(일반 코딩) → GLM 5.1
  • Opus(어려운 판단) → Claude Opus 4.7 API 직접

CCR 설정 파일은 JSON 포맷 한 덩어리다.

{
  "providers": {
    "z-ai": { "base_url": "https://api.z.ai/api/anthropic", "api_key": "zai-xxx" },
    "anthropic": { "base_url": "https://api.anthropic.com", "api_key": "sk-ant-xxx" }
  },
  "routing": {
    "haiku": { "provider": "z-ai", "model": "glm-4.7" },
    "sonnet": { "provider": "z-ai", "model": "glm-5.1" },
    "opus": { "provider": "anthropic", "model": "claude-opus-4-7" }
  }
}

이 구성이면 바이브코딩 90%는 GLM으로 받고, 일주일에 2–3번쯤 발생하는 아키텍처 레벨 판단만 Opus에 맡긴다. 필자는 월 Opus API 비용이 $30 아래로 떨어졌다.

방법 3: API 직접 호출 + 컨텍스트 캐싱

앱에 임베딩하거나 파이프라인을 돌리는 쪽이라면 Anthropic 호환 SDK를 그대로 쓰면 된다. 캐시 키만 잘 쪼개도 반복 시스템 프롬프트·도구 정의 비용이 1/5.4로 떨어진다.

from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.z.ai/api/anthropic",
    api_key="zai-xxx",
)

resp = client.messages.create(
    model="glm-5.1",
    max_tokens=4096,
    system=[{"type": "text", "text": LONG_SYSTEM_PROMPT,
             "cache_control": {"type": "ephemeral"}}],
    messages=[{"role": "user", "content": "이 PR 요약해줘"}],
)

cache_control 블록을 붙이면 동일 시스템 프롬프트 재사용 시 입력가가 $1.40 → $0.26으로 떨어진다. 200K 시스템 프롬프트를 1,000번 재사용하는 파이프라인에서 월 수십 달러 단위로 줄어든다.

환경변수 실수로 API 키 커밋 주의

⚠️ 주의: ANTHROPIC_AUTH_TOKEN을 셸에 export한 상태에서 .env 파일을 만들어 커밋하는 실수가 흔하다. .gitignore.env · .env.local을 반드시 추가하고, 1Password CLI 같은 secrets manager를 쓰는 편이 안전하다. Z.AI 대시보드에서 키 회전은 클릭 2번이지만 유출된 키로 쿼터가 소진되는 일이 드물지 않다.

GLM 5.1만 보면 반쪽이다 — 비전 모델과 이미지 생성 모델

공식 문서를 몇 장만 더 보면, Z.AI의 매력은 GLM 5.1 단일 모델보다 “구독형 코딩 + 별도 멀티모달 + 이미지 생성” 조합에 가깝다. 특히 스크린샷 이해, 디자인 투 코드, 다이어그램 생성까지 같이 원하는 사용자라면 이 섹션이 오히려 핵심이다.

용도 모델/기능 입력 과금/제한 언제 쓰나
장문 코딩·에이전트 GLM-5.1 텍스트 $1.4 / $4.4 per 1M 또는 Coding Plan 쿼터 리팩터링, 테스트 작성, 장기 실행
스크린샷·GUI 이해 GLM-5V-Turbo 또는 Vision MCP(GLM-4.6V) 이미지·영상·파일 GLM-5V-Turbo $1.2 / $4.0 per 1M, Vision MCP는 Plan 쿼터 UI 분석, 디자인 투 코드, 오류 화면 진단
이미지 생성 GLM-Image 텍스트 $0.015 / image 포스터, 도식, 썸네일 시안, 설명용 그래픽

(출처: Z.AI Overview, Z.AI Pricing, GLM-5V-Turbo, GLM-Image)

Coding Plan에는 Vision MCP가 같이 붙는다

공식 Devpack 문서 기준으로 모든 Coding Plan은 Vision Understanding, Web Search, Web Reader, Zread MCP를 지원한다. 특히 Vision MCP는 GLM-4.6V를 써서 스크린샷 텍스트 추출, 오류 화면 분석, UI-투-코드 같은 작업을 처리한다. Lite·Pro·Max에 따라 웹 검색/리더 월간 쿼터가 각각 100·1,000·4,000으로 다르고, Vision MCP는 모델의 5시간 프롬프트 풀을 함께 쓴다. 즉 “구독형인데도 에이전트에 눈을 붙여주는 옵션이 같이 온다”는 점이 생각보다 큰 장점이다(출처: Z.AI Coding Plan Overview, Z.AI Vision MCP Server).

일반 API에는 GLM-5V-Turbo가 있다

GLM-5V-Turbo는 Z.AI가 “첫 멀티모달 코딩 파운데이션 모델”이라고 소개하는 모델이다. 이미지·영상·텍스트·파일을 입력으로 받아 200K 컨텍스트, 128K 출력으로 응답하고, 비전 기반 코딩 작업에 특화되어 있다. 공식 문서가 직접 예시로 드는 용도도 디자인 목업을 코드로 재구성하기, 버그 스크린샷에서 레이아웃 문제 찾기, 아키텍처 다이어그램 읽기 같은 것들이다. 그래서 “GLM 5.1은 텍스트 전용이라 프론트엔드엔 약하다”는 말은 맞지만, “Z.AI 전체가 비전이 약하다”는 뜻은 아니다(출처: GLM-5V-Turbo).

이미지 생성은 GLM-Image로 분리돼 있다

이미지 생성은 GLM-Image가 맡는다. 공식 문서에 따르면 가격은 장당 $0.015이고, 1:1·3:4·4:3·16:9 비율을 지원한다. Z.AI가 특히 강점으로 내세우는 영역은 포스터, PPT, 과학 일러스트처럼 텍스트가 많이 들어가는 그림이다. 쉽게 말해 “코드 에이전트용 텍스트 모델”과 “비전 코딩 모델”, “이미지 생성 모델”이 각각 분리되어 있어, 필요한 능력을 용도별로 골라 쓰는 구조에 가깝다(출처: GLM-Image, Z.AI Pricing).

GLM 5.1의 한계 — 벤치마크가 말하지 않는 것

마케팅 카드에서는 잘 안 보이는 실전 약점 6가지를 정리한다.

GLM 5.1 자체는 텍스트 전용 — 제품 전체는 아니다

여기서 가장 헷갈리기 쉬운 대목이 나온다. GLM 5.1 모델 자체는 이미지 입력을 받지 못한다. 따라서 한 세션에서 스크린샷을 바로 던져 “이 버튼 왜 밀렸지?”를 묻는 플로우는 GLM 5.1 단독으로는 안 된다. 다만 Z.AI 제품 전체에는 GLM-5V-Turbo와 Vision MCP(GLM-4.6V)가 있으므로, 정확히는 “Z.AI에 비전이 없다”가 아니라 “GLM 5.1 하나로 텍스트·이미지·에이전트를 모두 끝내기엔 분리가 필요하다”가 맞다. 한 모델 일원화가 중요하다면 여전히 Opus 4.7이나 Gemini 3.1 Pro가 더 단순하다.

100–128K 토큰 근방 일관성 급락

HackerNews 유저 jauntywundrkind가 올린 관찰이 가장 정확하다. 짧은 대화에서는 안정적이지만 컨텍스트가 100K 토큰을 넘어가는 구간에서 예측 가능하게 급격히 품질이 떨어진다(출처: HackerNews 댓글). 200K 컨텍스트를 광고하지만 실전에서 안전하게 쓸 수 있는 구간은 80K 전후로 보는 게 낫다. 대형 레포 전체를 한 번에 넣기보다는 청킹이 필요하다.

로컬 실행 사실상 불가

754B 모델 FP8 추론에는 H200 8장 이상이 필요하다. 양자화 GGUF(~135GB)는 Mac Studio 256GB 환경에서도 토큰/초가 한 자릿수로 떨어져 실용적이지 않다. 오픈웨이트는 연구·파인튜닝·커스텀 배포용이지, 일반 개발자가 로컬로 돌리기 위한 선택지는 아니다.

지연시간·안정성 이슈

HN 유저 kay_o의 후기를 그대로 옮기면 단순 CSS 변경 요청 하나에 50분 이상 대기가 걸렸고 529 에러를 반복적으로 만났다는 수준이다. RickHull 역시 양자화 버전을 쓰다가 1/4–1/5 빈도로 파일 손상 또는 디렉토리 삭제가 발생했다고 기록했다(출처: HackerNews 스레드). Claude Code 수준의 에이전트 안정성이 아니라는 점을 받아들여야 한다.

피크 시간 3× 쿼터 차감

한국 기준 오후 3–7시가 통째로 3× 구간이라, 정규 근무 시간에 Lite($18)를 쓰면 주당 400 프롬프트가 실질 133개로 느껴진다. Pro 이상이 사실상 기본선이다. 상세는 앞 가격 섹션 참고.

벤치마크 오염 의혹

SWE-Bench Pro에서 Opus 4.6 · GPT-5.4를 0.7–1.1포인트로 꺾은 결과는 표준 오차 범위에 가깝다. r/LangChain에서는 훈련 데이터에 벤치마크가 일부 섞였을 가능성을 제기한다. 수치 그대로 받아들이기보다는 자기 레포·자기 언어·자기 라이브러리로 재현해보는 편이 낫다.

장점

  • + MIT 라이선스 오픈웨이트로 상업 이용·재학습 제약 없음
  • + SWE-Bench Pro 58.4 — 오픈웨이트 코딩 SOTA, Opus 4.6 대비 출력가 1/5.7
  • + Coding Plan 구독만으로 공식 지원 툴 전용 API 키 + Vision/Web MCP를 함께 사용 가능
  • + GLM-5V-Turbo와 GLM-Image까지 같은 문서 체계에서 이어져 스크린샷 이해·이미지 생성 확장이 쉽다
  • + 200K 컨텍스트·128K 출력, BrowseComp 68점으로 웹 에이전트 강세
  • + 8시간 1,700스텝 연속 자율 실행 지원, Vending Bench 2 오픈웨이트 1위

단점

  • GLM 5.1 자체는 텍스트 전용 — 스크린샷 분석은 GLM-5V-Turbo·Vision MCP나 다른 멀티모달 모델로 분리해야 함
  • 100–128K 토큰 근방 컨텍스트에서 일관성이 예측 가능하게 급락
  • 지연시간·안정성 이슈 — 529 에러 빈번, 파일 손상·디렉토리 삭제 리포트 존재
  • 한국 오후 3–7시 피크 쿼터 3× 차감 — Lite($18) 플랜은 정규 근무시간에 체감이 나쁨
  • 로컬 실행은 사실상 불가 — FP8 H200 8장 이상, 양자화본도 실용 속도 미달
  • SWE-Bench Pro 1위 격차가 0.7–1.1포인트로 좁아 오염 가능성 의혹 존재

Z.AI 가입 절차와 초대코드 혜택

신규 가입에 필요한 3단계

1

Z.AI 계정 생성

z.ai 접속 후 이메일 또는 GitHub OAuth로 가입한다. 중국 본토 휴대폰 번호 없이 이메일만으로 글로벌 계정을 만들 수 있다.

2

Coding Plan 구독 선택

Lite $18 · Pro $72 · Max $160 중 워크로드에 맞게 선택한다. 분기 결제 토글 기준으로는 대략 10% 안팎의 할인이 보인다. 개인 개발자는 Pro, 팀은 Max가 일반적이다.

3

API 키 발급 후 Claude Code에 연결

대시보드 API Keys 메뉴에서 키 생성 후 `ANTHROPIC_AUTH_TOKEN`과 `ANTHROPIC_BASE_URL`을 넣는다. Coding Plan 쿼터는 공식 지원 툴 안에서만 소모되고, 일반 앱 API 크레딧처럼 자동 전환되지는 않는다.

결제는 Stripe 기반 카드 결제·PayPal 중심이다. 실제 승인 여부는 카드사·국가·계정 상태에 따라 달라질 수 있으니 결제 직전 화면 기준으로 확인하는 편이 안전하다.

초대 링크로 얻는 5% 첫 결제 할인

Z.AI는 공식 레퍼럴 프로그램을 운영 중이다. 현재 규칙 문서 기준으로 초대 링크를 통해 가입한 신규 사용자는 72시간 내 첫 GLM Coding 구독 결제를 완료하면 5% 즉시 할인을 받을 수 있다. 갱신·업그레이드에는 적용되지 않고, 이전에 유료 구독 이력이 없는 계정에만 해당된다. 초대한 사람 쪽 보상은 별도 구조로, 유효 초대가 누적되면 첫 주문 실결제액 기준 10% 크레딧 보상이 지급된다(출처: Z.AI Credit Campaign Rules, 2026-05-04 확인).

참고로 필자의 초대코드를 적어두면 아래와 같다. 코드 없이 일반 가입을 해도 제품 기능 자체는 동일하니, 본인 상황에 맞게 선택하면 된다.

첫 구독 5% 즉시 할인 — 초대 링크

초대코드 HHIV4ZDCIJ로 Z.AI 가입하기 →

적용 조건: 신규 가입자, 유료 구독 이력 없음, 초대 링크 또는 코드로 가입, 72시간 내 첫 구독 결제. 이 할인은 현재 규칙 문서상 다른 유사 첫 주문 할인과 중복되지 않는다.

해지·환불 정책 요약
  • 구독 서비스: 현재 공식 정책상 구매 후 환불 불가
  • 자동 갱신 해지: 다음 결제 전에 OFF로 바꿀 수 있고, 현재 구독 기간은 만료까지 사용 가능
  • API 크레딧(별도 충전형): 환불 불가

커뮤니티 반응 — 해외와 국내가 갈린다

해외 개발자 커뮤니티에서 GLM 5.1은 가성비 끝판왕으로 빠르게 자리를 잡고 있다. 국내 반응은 아직 라이트 사용자 위주라 평가가 반반이다.

긍정 반응
  • "월 $30 GLM으로 Claude Max Code의 3배 usage를 얻는다. 일상 작업 90%는 구분이 안 갈 정도다." — Elio Verhoef (Medium)
  • "Open Code에서 GLM 5.1을 붙인 뒤 Cursor 구독을 해지하기로 했다. 품질이 너무 좋다." — DeathArrow (HackerNews)
  • "GLM 5.1의 UI 결과물이 GPT-5.4보다 낫고, 디자인은 Claude Opus 4.6보다 낫다는 느낌을 받는다." — BridgeMind (X)
  • "테니스장 예약 시스템의 SQL Injection 취약점을 자동으로 발견해 패치 PR까지 만들어줬다." — stavros (HackerNews)
부정 반응
  • "100–128K 컨텍스트 근방에서 완전 차분에서 완전 붕괴로 예측 가능하게 망가진다." — jauntywundrkind (HackerNews)
  • "양자화 버전 문제인지 1/4–1/5 빈도로 파일 손상이나 디렉토리 삭제가 발생했다." — RickHull (HackerNews)
  • "간단한 CSS 변경 요청에 50분 이상 걸리고 529 에러도 잦다. 안정성이 숙제다." — kay_o (HackerNews)
  • "컨텍스트는 크지만 추론·agentic 능력은 아직 OpenAI·Google 최상위에 못 미친다." — Ashish Sharda (Medium)

해외가 먼저 움직이는 이유

Open Code · Cline · Roo Code 같은 VS Code 계열 오픈소스 에이전트 IDE 생태계가 해외에서 더 활발하다. 이들 IDE는 모두 Anthropic API 호환 엔드포인트를 설정으로 바꿀 수 있어 GLM 5.1 도입 비용이 사실상 0에 가깝다. Cursor · Claude Code만 써온 국내 환경에서는 왜 굳이 바꿔야 하나라는 관성이 더 크다.

국내 라이트 사용자 기준 — 피크 쿼터가 체감 가장 큰 변수

국내 커뮤니티에서는 오후에 쓰려고 했더니 쿼터가 금방 떨어진다는 반응이 꽤 보인다. 앞서 다룬 UTC+8 14–18시 3× 차감이 한국 15–19시에 겹치는 구조 때문이다. 오전·새벽에 집중해서 쓰는 리듬이 가능한 독립 개발자라면 Pro 한 장으로도 넉넉하다. 바이브코딩 관점에서 GLM 5.1의 자리는 Opus가 맡던 많은 루틴 작업을 더 싼 가격대로 가져오는 교체재에 가깝다. 완전한 대체제가 아니라, 반복적이고 스펙이 비교적 명확한 구간을 잘라 오는 용도라고 보는 편이 정확하다.

트러블슈팅 Q&A

Q1: 환경변수를 설정했는데 Claude Code가 여전히 Anthropic에 붙는다

Claude Code는 기존 로그인 토큰을 우선 사용한다. claude logoutclaude 재실행으로 새 환경변수가 반영된다. ANTHROPIC_AUTH_TOKEN 대신 ANTHROPIC_API_KEY로 잘못 쓰는 케이스도 흔하니 변수명을 정확히 맞춘다.

Q2: 529 에러가 반복적으로 뜬다

피크 시간 과부하거나 쿼터 소진 직전 상황이다. 피크(한국 15–19시) 외 시간으로 재시도하거나, CCR에서 fallback 규칙을 걸어 529 발생 시 Claude Opus로 자동 스위치하도록 설정한다. retries: 3, backoff: exponential이 기본 조합이다.

Q3: 100K 컨텍스트를 넣었더니 답변이 이상해졌다

실전 안정 구간 80K를 넘겼을 가능성이 높다. 레포 전체를 한 번에 넣지 말고 .claudeignore 또는 CCR 룰로 청킹한다. 관련 파일만 5–10개 attach 전략이 훨씬 안정적이다.

Q4: 한국어 출력 품질은 어떤가

일상 기술 문서 작성은 GPT-4.1 이상, Claude Sonnet 4.5 수준이다. 다만 아주 긴 에세이나 격식체 혼용이 필요한 문서에서는 GLM 특유의 번역체 느낌이 남는다. 최종 퇴고는 Claude나 GPT로 돌리는 편이 낫다.

Q5: Windows에서도 쓸 수 있나

가능하다. PowerShell에서는 $env:ANTHROPIC_AUTH_TOKEN = "zai-xxx" 형식으로 지정한다. WSL2를 쓰면 리눅스 환경변수 세팅이 그대로 적용된다.

결론: 누가 지금 GLM 5.1을 써야 할까

핵심 요약

GLM 5.1은 Claude Code 워크플로의 상당 부분을 더 낮은 비용으로 옮겨오는 데 강점이 있다. 다만 Z.AI의 진짜 매력은 GLM 5.1 단독이 아니라 구독형 API + Vision MCP + GLM-Image로 이어지는 스택에 있다. 코딩 루틴·웹 에이전트·장시간 자율 실행은 오픈웨이트 최상위권이지만, 멀티모달·100K+ 장문 일관성·미세한 추론 판단은 여전히 Opus 4.7이나 Gemini 3.1 Pro가 앞선다. Opus를 완전히 버리는 선택보다, Opus 호출을 줄이는 보조제로 쓰는 쪽이 더 현실적인 포지셔닝이다.

✅ 이런 분에게 추천한다
  • Claude Code Max 비용 부담 1인 개발자 — Coding Plan Pro($72)로 많은 일상 작업을 처리하고, 까다로운 구간만 Opus로 넘기고 싶은 경우
  • 스크린샷 이해까지 같이 필요한 코딩 사용자 — GLM 5.1 + Vision MCP 조합이면 텍스트 코딩과 화면 이해를 한 스택에서 운영 가능
  • API 파이프라인 운영 팀 — 캐시 히트 기준 입력가 $0.26/1M로 RAG·평가·배치 단가 1/10 수준
❌ 이런 분에게는 추천하지 않는다
  • GLM 5.1 단일 모델 하나로 텍스트·이미지·스크린샷을 모두 끝내고 싶은 프론트엔드 개발자 — Z.AI 안에서도 GLM-5V-Turbo·Vision MCP로 분리 운용해야 한다
  • 대형 레포 전체를 컨텍스트에 통째로 넣던 분 — 80K 이하 청킹 여력이 필수. 아니면 Opus가 안전하다
1

Z.AI에 가입하고 Coding Plan Pro를 구독한다

z.ai에 이메일로 가입 후 Pro($72/mo, 분기 결제 시 약 $65/mo)를 선택한다. 개인 작업이 주 400 프롬프트 이하면 Lite($18)부터 시작해도 된다.

2

API 키를 발급하고 Claude Code 환경변수에 등록한다

대시보드에서 키 생성 후 `ANTHROPIC_AUTH_TOKEN`, `ANTHROPIC_BASE_URL`, `API_TIMEOUT_MS`를 넣는다. GLM-5.1을 고정하려면 `ANTHROPIC_DEFAULT_OPUS_MODEL` 같은 슬롯 매핑을 추가한다.

3

평소 워크플로로 3일간 돌려본다

Opus와 체감 차이를 기록한다. 특히 100K 근방 컨텍스트, 이미지 입력 의존 작업, 복잡한 추론 세 지점을 의식적으로 체크한다. 스크린샷 이해가 필요하면 Vision MCP도 함께 켜본다.

4

필요하면 CCR로 Haiku=4.7, Sonnet=5.1, Opus=claude-opus-4-7 라우팅을 구성한다

작업별 모델 분리로 월 API 비용을 Opus 대비 1/5 이하로 맞출 수 있다. 어려운 판단만 Opus에 오프로드한다.

5

피크 시간 루틴을 조정한다

한국 15-19시는 3배 차감이라 오전·새벽에 무거운 작업을 몰아두고, 피크 시간에는 문서 작성·가벼운 리팩터링만 돌린다.

GLM 5.1은 정말로 Claude Opus 4.7보다 코딩을 잘하나?
출시 시점 기준으로는 SWE-Bench Pro에서 GLM 5.1(58.4)이 당시 현역 Opus 4.6(57.3)을 1.1포인트 앞섰다. 다만 4월 16일 공개된 Opus 4.7은 SWE-Bench Pro 64.3 · Verified 87.6으로 GLM 5.1을 각각 5.9 · 9.8포인트 앞서며 다시 선두를 탈환했다. 실무에서는 단순 CRUD·리팩터링·테스트 작성 구간은 GLM 5.1이 충분하고, 아키텍처 판단이나 난해한 버그 추적은 Opus 4.7이 낫다는 체감이 일반적이다.
월 $18 Lite 플랜으로 Claude Code를 대체할 수 있나?
1인 개발자의 라이트 사용(주당 40–80개 이슈 해결)이라면 가능하다. 다만 한국 15–19시 피크 시간에 3× 쿼터 차감이 걸려 Lite의 주 400 프롬프트가 실질 133개처럼 느껴질 수 있다. 정규 근무 시간에 집중적으로 쓴다면 Pro($72) 이상을 권장한다.
Coding Plan 구독만으로 API를 쓸 수 있나?
쓸 수는 있지만, Plan 쿼터와 일반 API 과금을 분리해서 이해하는 게 맞다. 공식 Overview·FAQ는 Coding Plan 쿼터가 Claude Code·Cline·OpenCode 같은 지원 툴 안에서만 적용되고 API 호출은 별도 과금이라고 설명한다. 동시에 TRAE 문서는 `Z.ai-plan`은 Plan 쿼터, `Z.ai`는 일반 API로 라우팅되어 balance에서 standard pricing이 차감된다고 적는다. 즉 같은 계정/API 키로 general endpoint 호출이 될 수는 있어도, 그걸 Coding Plan 포함 혜택으로 쓰는 개념은 아니다.
Z.AI에 비전 모델과 이미지 생성 모델도 있나?
있다. 비전 코딩 쪽은 GLM-5V-Turbo가 이미지·영상·파일·텍스트를 입력받는 멀티모달 코딩 모델이고, Coding Plan에는 GLM-4.6V 기반 Vision MCP도 붙는다. 이미지 생성은 GLM-Image가 맡으며 공식 가격은 장당 $0.015다. 즉 GLM 5.1 하나만 보는 것보다 Z.AI 전체 스택으로 보는 편이 맞다.
GLM 5.1을 로컬에서 돌릴 수 있나?
사실상 불가능에 가깝다. FP8 추론에 H200 8장 이상이 필요하고, 양자화 GGUF(~135GB)도 Mac Studio 256GB 환경에서 한 자릿수 토큰/초라 실용성이 없다. 오픈웨이트는 연구·파인튜닝·커스텀 배포용이고, 일반 사용은 Z.AI API나 OpenRouter를 쓰는 게 맞다.
초대코드 없이 가입하면 불이익이 있나?
크게 없다. 초대 링크의 직접 혜택은 신규 사용자의 첫 GLM Coding 구독 주문에 적용되는 5% 즉시 할인이다. 유효 초대를 성사시킨 사람 쪽에는 별도의 크레딧 보상 구조가 있지만, 가입자 입장에서는 코드가 없다고 기능이 달라지지는 않는다.
텍스트 전용이라는 게 실무에서 얼마나 불편한가?
GLM 5.1 단독으로 보면 프론트엔드 비주얼 디버깅에서는 꽤 큰 제약이다. UI 스크린샷을 던지고 여기 어긋났어요 질문이 바로 되지 않는다. 대신 Z.AI 안에서도 GLM-5V-Turbo나 Vision MCP를 같이 쓰는 우회로는 있다. 그래서 백엔드·데이터·문서화 중심이면 큰 문제가 아니고, 화면 이해가 일상이라면 멀티모달 모델을 함께 운용하는 전제가 필요하다.
GLM 4.6을 계속 써도 되나, 아니면 5.1로 갈아타야 하나?
새로 세팅하는 기준이라면 5.1이나 4.7 쪽이 더 자연스럽다. 최신 공식 문서와 지원 툴 가이드는 GLM-5.1, GLM-5-Turbo, GLM-4.7, GLM-4.5-Air 중심으로 설명하고 있고, 5.1은 SWE-Bench Verified 기준으로 4.6 대비 9.8포인트 높은 성능을 보여준다. 가격 최저선만이 절대 조건이 아니라면 5.1이나 4.7이 더 무난하다.
국내 결제·세금계산서 발급이 가능한가?
Z.AI 결제는 Stripe 기반 해외 결제 성격으로 이해하는 편이 가깝다. 공식 문서에는 한국식 세금계산서 발급 지원 안내가 보이지 않으므로, 실제 비용 증빙은 결제 영수증과 카드 명세 기준으로 확인하는 편이 안전하다. 법인 처리 방식은 경리팀이나 세무 담당자와 상의하는 것을 권한다.

주제 태그