LG EXAONE 4.5와 한국 로컬 LLM 근황 총정리

3줄 요약

EXAONE 4.5는 2026년 4월 9일 공개된 33B 오픈 웨이트 VLM이지만, NC 라이선스라 상업 서비스에 바로 넣을 수 있는 모델은 아니다.
2026년 5월 2일 기준 한국 로컬 LLM 판도는 API 중심 플래그십, 오픈 웨이트/셀프호스트 계열, 초대형 소버린 쇼케이스로 나눠서 봐야 한다.
지금 중요한 질문은 “한국어 1위가 누구냐”보다 “우리 목적에 맞게 합법적으로, 감당 가능한 하드웨어에서, 실제로 배포할 수 있느냐”다.

EXAONE 4.5는 정확히 어떤 모델인가?
EXAONE 4.5는 진짜 로컬 LLM이라고 부를 수 있나?
한국 로컬 LLM은 지금 누가 어디까지 왔나?
상업적으로 바로 쓸 수 있는 한국 모델은 무엇인가?
한국어를 잘한다는 말은 무엇으로 검증해야 하나?
글로벌 모델과 비교하면 한국 모델은 어느 정도 수준인가?
개인 개발자와 기업은 왜 다른 선택을 해야 하나?
앞으로 한국 로컬 LLM 판도는 어떻게 바뀔까?
FAQ: EXAONE 4.5와 한국 로컬 LLM에 대해 자주 묻는 질문
결론: 2026년 5월 한국 로컬 LLM 시장을 어떻게 읽어야 하나?

한국 로컬 LLM을 2026년 5월 2일 기준으로 다시 보면, 분위기는 분명히 달라졌다. “한국에도 자체 모델이 있다” 수준을 넘어, 실제로 허깅페이스에서 내려받아 셀프호스트할 수 있는 모델군이 늘었고, API 중심 상용 모델도 에이전트와 멀티모달 쪽으로 빠르게 진화했다. 다만 EXAONE 4.5를 포함한 일부 모델은 성능 화제성과 실제 배포 가능성 사이의 간극이 크다. 이번 글은 EXAONE 4.5를 중심축으로 두되, HyperCLOVA X SEED, Kanana 2, A.X 4.0, Mi:dm 2.0, Solar Pro 3까지 함께 놓고 “무엇이 진짜 쓸 만한가”를 정리한다.

EXAONE 4.5는 정확히 어떤 모델인가?

결론부터 말하면 EXAONE 4.5는 “한국어 대화형 LLM 1위”로 읽기보다 “33B 체급에서 문서 이해와 멀티모달 산업용 추론을 노린 한국형 오픈 웨이트 VLM”으로 읽는 편이 정확하다. LG AI Research는 2026년 4월 9일 EXAONE 4.5를 공개했고, 기술 보고서와 모델 카드에는 31.7B 언어 파라미터와 1.29B 비전 인코더를 결합한 33B 모델이라고 적혀 있다 (출처: EXAONE 4.5 GitHub, EXAONE 4.5 Technical Report, EXAONE 4.5 HF 모델 카드).

모델 요약 EXAONE 4.5

API 가격 오픈 웨이트 공개, 단 상업 사용 불가(NC)

01 2026년 4월 9일 공개

02 33B Dense VLM

03 256K 컨텍스트

04 문서 이해·차트·OCR·한국어 문맥 추론 강조

05 TensorRT-LLM·vLLM·SGLang·llama.cpp 지원

huggingface.co/LGAI-EXAONE/EXAONE-4.5-33B

왜 4.5가 의미가 컸나?

EXAONE 계열은 원래 한국어 강점이 있는 LG 계열 모델로 알려져 있었지만, 4.5에서 달라진 포인트는 텍스트 중심에서 시각 이해까지 본격적으로 묶었다는 점이다. LG는 EXAONE 4.5를 “첫 번째 오픈 웨이트 비전 언어 모델”로 소개했고, 문서 중심 데이터 큐레이션과 256K 문맥 확장을 통해 산업 문서 이해를 강화했다고 설명했다 (출처: EXAONE 4.5 Technical Report, LG 보도자료).

이 표현에서 중요한 건 “한국어 일반 대화”보다 “산업용 문서, 표, 차트, 시각 정보가 섞인 입력”이 전면에 놓여 있다는 점이다. 같은 33B급이라도 EXAONE 4.5는 ChatGPT 대체재보다 문서 인텔리전스 축에서 읽는 편이 낫다.

스펙만 보면 어디까지 강한가?

공식 모델 카드 기준 EXAONE 4.5는 262,144 토큰 컨텍스트를 지원하고, 실전 서빙 기준으로는 단일 H200 또는 4x A100 40GB를 권장한다. 지원 프레임워크로는 TensorRT-LLM, vLLM, SGLang, llama.cpp가 명시돼 있다 (출처: EXAONE 4.5 HF 모델 카드).

한국어 관련 공식 비교 수치만 떼어 보면 해석은 조금 더 냉정해야 한다. LG 모델 카드에는 멀티모달 한국어 지표 KMMMU 42.7, K-Viscuit 80.1, KRETA 91.9가 적혀 있고, 언어 전용 쪽에는 KMMLU-Pro 67.6, KoBALT 52.1이 실려 있다. 같은 표 안에서 GPT-5 mini는 KMMLU-Pro 72.5, KoBALT 63.6, Qwen3.5 27B는 KMMLU-Pro 73.0, KoBALT 54.9를 기록한다 (출처: EXAONE 4.5 HF 모델 카드).

지표	EXAONE 4.5	GPT-5 mini	K-EXAONE 236B	Qwen3.5 27B
KMMMU	42.7	42.6	-	51.7
K-Viscuit	80.1	78.5	-	84.0
KRETA	91.9	94.8	-	96.5
KMMLU-Pro	67.6	72.5	67.3	73.0
KoBALT	52.1	63.6	61.8	54.9
OCRBench v2	63.2	55.8	-	67.3
OmniDocBench v1.5	81.2	77.0	-	88.9

이 표만 봐도 그림이 선명하다. EXAONE 4.5는 한국어 전 영역에서 압도적 1위가 아니다. 대신 문서·OCR·도표 해석과 일부 한국어 멀티모달 문맥에서 꽤 경쟁력이 있다. 그래서 “한국어 최강”보다 “문서형 VLM 강자”라고 부르는 편이 안전하다.

라이선스와 한계는 왜 더 중요해졌나?

EXAONE 4.5의 가장 큰 현실 제약은 라이선스다. GitHub와 Hugging Face 양쪽 모두 EXAONE AI Model License Agreement 1.2 - NC라고 명시하고 있어 상업적 이용이 금지된다 (출처: EXAONE 4.5 GitHub, EXAONE 4.5 HF 모델 카드).

EXAONE 4.5에서 가장 먼저 봐야 할 것

성능보다 라이선스를 먼저 봐야 한다. EXAONE 4.5는 오픈 웨이트라서 내려받아 연구하거나 내부 실험하는 건 가능하지만, 그대로 상업 서비스에 넣는 모델은 아니다.

또 하나는 LG 스스로 적어둔 한계다. 모델 카드는 EXAONE 4.5가 학습 데이터 통계에 크게 의존하며, 부정확한 최신 정보, 편향, 부적절한 응답을 생성할 수 있다고 적고 있다. 여기까지는 다른 멀티모달 모델도 비슷하지만, “산업 문서 이해”를 강점으로 내세우는 모델일수록 오히려 잘못된 표 해석이나 문서 추론이 더 위험할 수 있다 (출처: EXAONE 4.5 HF 모델 카드).

EXAONE 4.5는 진짜 로컬 LLM이라고 부를 수 있나?

짧게 답하면 “기술적으로는 예, 소비자 관점에서는 반쯤만”이다. 허깅페이스에서 받을 수 있고 vLLM, TensorRT-LLM, llama.cpp 경로도 열려 있으니 셀프호스트 가능한 건 맞다. 하지만 LG가 권장한 실전 서빙 환경이 H200 한 장이나 A100 40GB 네 장이라는 점에서, 일반적인 맥북·개인 워크스테이션 기준의 로컬 LLM과는 거리가 있다 (출처: EXAONE 4.5 HF 모델 카드).

“다운로드 가능”과 “개인 로컬”은 다르다

2026년 한국 LLM 기사에서 가장 자주 놓치는 구분이 이 부분이다. 허깅페이스에 공개됐다고 해서 곧바로 “집에서도 잘 돌아가는 로컬 모델”은 아니다. EXAONE 4.5, HyperCLOVA X SEED Think 32B, Kanana-2 30B-A3B, A.X 4.0 72B 같은 모델은 모두 셀프호스트 후보지만, 대부분은 멀티 GPU나 A100급 이상을 상정한다.

반대로 Mi:dm 2.0 Mini 2.3B나 Kanana 1.5 2.1B 같은 모델은 진짜 로컬 실험 관점에서 훨씬 현실적이다. 그래서 기사에서도 “로컬 가능”이라는 말을 쓰되, 꼭 하드웨어 등급을 붙여야 한다.

연구용 로컬과 제품용 로컬도 다르다

EXAONE 4.5는 연구팀이나 대기업 AI 조직이 문서 이해 실험을 돌릴 때는 꽤 흥미롭다. 하지만 제품용 로컬, 특히 상용 SaaS나 기업 대외 서비스로 들어가려면 NC 라이선스가 막는다. 즉 “셀프호스트 가능”과 “사업에 바로 쓸 수 있음”을 분리해야 한다.

누가 EXAONE 4.5를 진지하게 봐야 하나?

첫째는 문서 인텔리전스 팀이다. 차트, 표, 보고서, 도면, OCR이 섞인 워크로드를 다루는 팀이라면 33B급 오픈 웨이트 VLM이 주는 실험 가치는 꽤 크다. 둘째는 한국어 문맥이 중요한 연구 조직이다. 다만 셋째, 일반 스타트업이나 개인 개발자가 “한국형 로컬 LLM 하나 고르자”는 맥락이라면 EXAONE 4.5는 첫 선택지가 아니라 비교 축 중 하나에 가깝다.

EXAONE 4.5의 현실적 포지션

EXAONE 4.5는 “대중용 한국 로컬 챗봇”보다 “연구용·산업용 멀티모달 오픈 웨이트”에 더 가깝다. 이 차이를 놓치면 기사 전체가 광고 문구처럼 읽히기 쉽다.

한국 로컬 LLM은 지금 누가 어디까지 왔나?

2026년 5월 2일 기준 한국 로컬 LLM 생태계는 대략 다섯 갈래로 읽는 게 편하다. LG EXAONE, NAVER HyperCLOVA X/SEED, Kakao Kanana, SKT A.X, KT Mi:dm, 그리고 API 중심 한국 모델로는 Upstage Solar Pro 3가 가장 눈에 띈다.

한국 로컬 LLM을 API 중심, 셀프호스트, 상업 사용 제약 축으로 나눈 지형도 — 한국 로컬 LLM은 성능 순위보다 배포 방식과 라이선스로 먼저 나눠 봐야 한다.

NAVER: HyperCLOVA X 본체와 SEED를 분리해서 봐야 한다

네이버는 공식 문서에서 HyperCLOVA X 본체를 CLOVA Studio API 라인업으로 제공한다. HCX-007은 하이브리드 reasoning, 128K 컨텍스트, function calling, structured outputs를 지원하고, HCX-005는 멀티모달, HCX-DASH-002는 경량 라인이다 (출처: CLOVA Studio models).

반면 로컬/셀프호스트 축은 HyperCLOVA X SEED다. NAVER 공식 기술 페이지는 SEED를 “기업과 개발자가 자유롭게 접근할 수 있고 상업적 활용이 가능한 오픈소스 AI 모델”이라고 소개한다 (출처: NAVER HyperCLOVA X 페이지). 다만 실제 허깅페이스 배포 단위는 별도 커스텀 라이선스이므로, 법무 검토를 생략해도 된다는 뜻은 아니다.

SEED 쪽 최신 공개물로는 0.5B·1.5B 텍스트 인스트럭트, Vision 3B, Think 14B, Think 32B, Omni 8B가 확인된다. Think 32B는 128K 문맥의 한국어 중심 추론 VLM이고, Omni 8B는 텍스트·이미지·오디오를 함께 다루는 32K 옴니 모델이다 (출처: HyperCLOVA X SEED 컬렉션, SEED Think 32B, SEED Omni 8B).

Kakao: Kanana 1.5에서 상업 오픈, Kanana-2에서 에이전트 방향이 선명해졌다

카카오는 2025년 5월 23일 Kanana 1.5 2.1B·8B 계열을 Apache 2.0으로 공개하며 상업 사용 가능 오픈 모델 축을 열었다. 공식 보도자료는 한국어·영어 양방향 성능, 긴 입력 처리, 함수 호출 강화, 상업 이용 가능성을 함께 강조한다 (출처: Kakao Kanana 1.5 release).

2026년 1월 20일에는 Kanana-2 30B-A3B 계열을 추가 공개했다. 카카오는 이 모델이 A100급 범용 GPU에서도 돌아가도록 최적화됐고, 지시 이행과 도구 호출을 강화한 에이전틱 AI용 MoE 모델이라고 설명한다. 전체 32B 중 실제 추론 시 3B만 활성화한다는 점도 공식 자료에 나온다 (출처: Kakao Kanana-2 update, Kanana-2 컬렉션).

또 하나의 포인트는 카카오가 텍스트 전용에서 멀티모달로 확장 중이라는 점이다. Kakao는 2025년 5월 Kanana-o를 한국 최초 통합 멀티모달 언어 모델로 소개했지만, 이 축은 오픈 웨이트보다 제품/API 성격이 더 강하다 (출처: Kanana-o 공식 발표).

SKT·KT·Upstage: 기업 도입 관점에서는 오히려 더 실무적이다

SKT는 2025년 7월 3일 A.X 4.0 72B 표준 모델과 7B 경량 모델을 오픈소스로 공개했다. 공식 발표문에는 Qwen2.5 기반 추가 학습, 로컬 환경 운영 가능성, 내부망 설치 지원, KMMLU 78.3과 CLIcK 83.5가 적혀 있다. 다만 이 성능 수치는 SKT 공식 발표 기준이라는 단서를 붙여 읽는 게 맞다 (출처: SKT A.X 4.0 release).

KT는 공개 가중치 기준으로 Mi:dm 2.0 Base 11.5B와 Mi:dm 2.0 Mini 2.3B가 가장 중요하다. Hugging Face 모델 카드는 MIT 라이선스, Korea-centric AI 포지션, KT 사용자 데이터 미포함을 명시한다. 그리고 K intelligence 모델 페이지에는 믿:음 K 2.5 Pro가 제품 라인업에 등장하지만, 내가 2026년 5월 2일 기준으로 확인한 공개 다운로드 축은 2.0 Base/Mini였다 (출처: Mi:dm 2.0 Base HF 모델 카드, K Model 페이지).

Upstage는 두 갈래로 봐야 한다. 최신 플래그십은 Solar Pro 3로, 2026년 3월 기준 102B MoE에 12B 활성 파라미터, API 중심, Solar Pro 2와 같은 가격을 유지하며 에이전트·추론·한국어 성능을 개선했다고 공식 블로그에 적혀 있다. 가격 페이지에는 입력 100만 토큰당 $0.15, 출력 100만 토큰당 $0.6가 공개돼 있다 (출처: Solar Pro 3 blog, Upstage Pricing). 반면 직접 내려받는 Upstage 계열을 찾는다면 Solar Open 100B가 여전히 기준점이다 (출처: Upstage HF org models, Solar Open 100B).

모델	2026-05-02 기준 상태	실제 배포 형태	상업 사용	한 줄 판단
EXAONE 4.5	최신 공개 33B VLM	셀프호스트 가능, 고사양	불가(NC)	연구용·문서형 VLM
HyperCLOVA X	현행 API 라인업	CLOVA Studio/API	가능	한국어·기업용 API
HyperCLOVA X SEED	오픈 웨이트 계열 확장	셀프호스트 가능	가능하나 커스텀 라이선스	네이버의 로컬 축
Kanana 2	오픈 공개된 최신 에이전트 축	셀프호스트 가능	오픈 공개, 세부 라이선스 확인 필요	A100급 실용 MoE
A.X 4.0	72B/7B 공개	온프레미스 지향	가능	기업 보안형 한국어 모델
Mi:dm 2.0	11.5B/2.3B 공개	셀프호스트 가능	가능(MIT)	가장 무난한 상용 오픈 축
Solar Pro 3	최신 공식 플래그십	API 중심	가능	한국계 고성능 API 모델

상업적으로 바로 쓸 수 있는 한국 모델은 무엇인가?

실무적으로는 이 질문이 가장 중요하다. 모델 성능보다 먼저 라이선스, API vs 셀프호스트, 배포 하드웨어, 법무 검토 난이도를 봐야 한다.

EXAONE 4.5는 성능 화제성과 도입 가능성이 분리된다

EXAONE 4.5는 바로 이 지점에서 가장 극적이다. 성능 화제성은 높지만 NC 라이선스 때문에 상업 서비스 도입 모델로는 탈락한다. 사내 리서치, 평가, 프로토타입에는 의미가 있어도 “이걸로 제품 만들자”는 결론은 성급하다.

MIT·Apache·커스텀 라이선스는 체감 차이가 크다

Mi:dm 2.0 Base는 MIT라 가장 해석이 단순하다. Kanana 1.5 2.1B/8B는 Kakao 보도자료 기준 Apache 2.0으로 공개됐다. 이런 모델은 기업 입장에서 검토 비용이 낮다 (출처: Mi:dm 2.0 Base HF 모델 카드, Kakao Kanana 1.5 release).

반면 HyperCLOVA X SEED와 일부 Kanana 라인업은 “오픈”이라는 표현과 별개로 자체 모델 라이선스가 붙는다. 상업 사용이 허용돼도 금지 조항, 사용 정책, 배포 고지 조건이 들어갈 수 있으니 법무 검토가 필요하다. 이런 모델은 “무료로 쓸 수 있다”가 아니라 “조건이 붙은 상업 가능 오픈 웨이트”로 표현하는 편이 낫다.

API 모델은 비용이 보이고, 오픈 웨이트는 인프라 비용이 숨어 있다

Solar Pro 3처럼 API 중심 모델은 토큰 단가가 바로 보인다. Upstage는 Solar Pro 3 가격을 공개하고 있다. 반대로 A.X 4.0, Mi:dm 2.0, SEED, Kanana-2 같은 셀프호스트 계열은 API 단가 대신 GPU, 스토리지, 운영 인력 비용이 붙는다 (출처: Upstage Pricing).

배포 방식	대표 모델	장점	주의점
연구용 오픈 웨이트	EXAONE 4.5	최신 멀티모달 문서 추론 실험	NC 라이선스
상업 가능한 오픈 모델	Mi:dm 2.0, Kanana 1.5	셀프호스트·튜닝 유연성	운영 비용과 품질 관리
엔터프라이즈 온프레미스	A.X 4.0, Kanana-2, SEED Think 32B	보안과 데이터 통제	A100급 이상 요구 가능
API 플래그십	Solar Pro 3, HyperCLOVA X	도입 속도와 운영 단순성	벤더 종속과 지속 과금

한국어를 잘한다는 말은 무엇으로 검증해야 하나?

한국 모델 기사에서 가장 흔한 오류는 서로 다른 벤치마크를 한 줄 순위처럼 섞는 것이다. 한국어를 잘한다는 말은 최소한 세 갈래로 나눠 봐야 한다.

KMMLU는 한국 시험형 전문지식과 문화 맥락을 본다

KMMLU는 기존 영어 벤치마크 번역본이 아니라, 45개 과목 35,030개 한국 시험 문제를 모은 벤치마크다. 그래서 단순 번역 실력보다 한국어 전문지식, 문화 맥락, 시험형 추론을 본다. 초기 논문 기준 최고 공개 모델도 50.54%에 그쳐 인간 평균 62.6%보다 낮았다 (출처: KMMLU 논문).

이 말은 두 가지를 뜻한다. 첫째, KMMLU 점수가 높으면 한국어 전문지식에 강하다고 볼 수 있다. 둘째, 그래도 그 점수 하나로 “대화형 UX”까지 대표하진 못한다.

KoBALT는 진짜 한국어 언어학적 이해를 더 깊게 묻는다

KoBALT는 형태론, 음운론, 화용론, 구문론, 의미론을 걸쳐 24개 현상을 700개 문항으로 평가한다. 즉 “한국어 문장을 얼마나 자연스럽게 쓰는가”를 더 깊게 보는 쪽이다. 이 벤치는 한국어 특화 모델과 글로벌 모델의 차이를 훨씬 날카롭게 드러낸다 (출처: KoBALT 논문).

EXAONE 4.5의 KoBALT 52.1은 나쁜 점수는 아니지만, GPT-5 mini 63.6이나 K-EXAONE 61.8과 비교하면 “한국어 전체 1위”라고 말할 정도는 아니다. 그래서 EXAONE 4.5를 문서형 멀티모달 축으로 보는 게 더 자연스럽다.

KMMMU와 CLIcK은 “한국 맥락”을 더 잘 보여준다

KMMMU는 한국어 멀티모달 문맥을 평가하는 데 유용하고, CLIcK은 한국 문화·언어 맥락 이해를 더 직접적으로 겨냥한다. 예를 들어 SKT는 A.X 4.0이 KMMLU 78.3, CLIcK 83.5로 GPT-4o보다 높다고 발표했다. 다만 이 수치는 SKT 공식 발표 기준이므로 독립 재현 결과와 같은 무게로 읽으면 안 된다 (출처: SKT A.X 4.0 release).

한국어 성능을 읽는 최소 규칙

KMMLU는 전문지식, KoBALT는 언어학적 깊이, KMMMU와 CLIcK은 한국 맥락과 멀티모달에 더 가깝다. 서로 다른 시험을 한 줄 순위표로 합치면 거의 항상 과장이 생긴다.

글로벌 모델과 비교하면 한국 모델은 어느 정도 수준인가?

가장 솔직한 답은 이렇다. 범용 최강 경쟁에서는 여전히 글로벌 프런티어와 중국계 대형 모델이 우세한 구간이 많다. 하지만 한국 모델은 한국 맥락, 기업 보안, 문서형 워크로드, 온프레미스에서 별도 승부처를 만들고 있다.

KMMLU, KoBALT, KMMMU와 CLIcK이 각각 무엇을 평가하는지 보여주는 인포그래픽 — 한국어 성능은 시험형 지식, 언어학적 깊이, 멀티모달·문화 맥락을 나눠서 읽어야 한다.

EXAONE 4.5는 세계 최강보다 “역할 특화 경쟁권”에 가깝다

LG 공식 자료만 기준으로 봐도 EXAONE 4.5는 GPT-5 mini를 일부 문서·OCR 항목에서 앞서지만, Qwen3.5 27B가 더 높은 항목도 많다. 다시 말해 “EXAONE 4.5가 세계 최고”라기보다 “33B 체급 오픈 웨이트 VLM 중 꽤 강한 특화형”이라고 보는 게 정확하다 (출처: EXAONE 4.5 HF 모델 카드).

한국 모델은 글로벌 프런티어를 대체하기보다 보완하는 쪽이 현실적이다

이 포인트는 GPT-5.5 총정리나 Claude Opus 4.7 총정리에서 본 흐름과도 이어진다. 범용 추론, 광범위한 코딩, 영어 중심 최신 지식, 생태계 커버리지는 아직 글로벌 모델이 더 강하다. 대신 한국 모델은 법률·공공·금융 문서, 한국 사회 상식, 높은 보안 요구, 국내 데이터 주권 같은 조건에서 존재감이 커진다.

중국계 오픈모델과도 같이 비교해야 한다

한국 시장에서는 미국 프런티어 모델만 경쟁자가 아니다. Qwen 3.6 리뷰, GLM 5.1 후기, Kimi K2.6 완전분석에서 봤듯이 중국계 모델은 가격, 오픈 웨이트, 코딩, 긴 문맥, 함수 호출에서 강하게 들어와 있다. 한국 로컬 LLM이 진짜 시장성을 가지려면 “국산이니까”가 아니라 “한국 맥락과 보안에서 분명한 이유가 있다”를 증명해야 한다.

개인 개발자와 기업은 왜 다른 선택을 해야 하나?

이제부터는 “누가 써야 하느냐”의 문제다. 같은 한국 모델이라도 개인 개발자와 대기업 보안팀이 고를 모델은 완전히 다르다.

개인 개발자라면 라이선스와 하드웨어부터 좁혀야 한다

개인 개발자가 EXAONE 4.5, SEED Think 32B, Kanana-2 30B-A3B 같은 모델을 바로 메인으로 쓰려면 하드웨어 장벽이 높다. 그래서 현실적으로는 Mi:dm 2.0 Mini, Kanana 1.5 2.1B/8B, 또는 한국 모델이 꼭 아니어도 Gemma·Qwen 계열을 함께 비교하는 편이 낫다. 오픈 웨이트 한국어 실사용성의 맥락은 Gemma 4 리뷰에서도 참고할 만하다.

기업이라면 온프레미스와 법무 리스크가 1순위다

금융, 공공, 제조, 대기업 내부 문서 자동화처럼 데이터 외부 반출이 어렵다면 A.X 4.0, Kanana-2, HyperCLOVA X SEED, Mi:dm 2.0 같은 온프레미스 후보가 먼저 검토 대상이 된다. 이때 모델 절대 성능보다 라이선스 명확성, 사내 GPU 수급, 한국어 문서 품질, 도구 호출/에이전트 적합성이 더 중요하다.

API 중심 조직이라면 Solar Pro 3와 HyperCLOVA X가 빠르다

빠르게 붙여야 하고 내부 GPU 운영 조직이 없다면 Solar Pro 3나 HyperCLOVA X 같은 API 모델이 훨씬 현실적이다. 특히 Solar Pro 3는 같은 가격대에서 추론과 에이전트 성능을 올렸고, HyperCLOVA X는 한국어 맥락과 국내 엔터프라이즈 친화성이 강하다 (출처: Solar Pro 3 blog, Upstage Pricing, CLOVA Studio models).

상황	우선 볼 모델	이유	주의점
문서·차트·OCR 연구	EXAONE 4.5	33B 오픈 웨이트 VLM	NC 라이선스
한국어 상용 셀프호스트	Mi:dm 2.0 Base, Kanana 1.5	상업 가능 라이선스 축이 비교적 명확	절대 성능보다 운영 체계 중요
대기업 온프레미스	A.X 4.0, Kanana-2, SEED Think 32B	보안·한국 맥락·사내 배포	A100급 이상 필요 가능
빠른 API 도입	Solar Pro 3, HyperCLOVA X	운영 단순성	장기 비용과 종속성
개인 로컬 실험	Mi:dm 2.0 Mini, Kanana 1.5 2.1B	작은 체급	대형 모델 같은 성능 기대는 금물

앞으로 한국 로컬 LLM 판도는 어떻게 바뀔까?

세 가지 흐름은 거의 확실해 보인다. MoE, 멀티모달, 소버린 AI의 실무화다.

사용 목적에 따라 한국 모델을 고르는 라우팅 맵 — 최고점 경쟁보다 사용 목적별 라우팅으로 모델을 고르는 편이 실무적이다.

첫째, Dense보다 MoE의 비중이 더 커질 가능성이 높다

Kanana-2 30B-A3B, Solar Pro 3 102B/12B, K-EXAONE 236B/23B, A.X K1 519B/33B를 보면 방향은 분명하다. 총 파라미터를 키우되 실제 활성 파라미터를 줄여 비용을 낮추는 방식이 한국 기업 모델에서도 표준이 되고 있다 (출처: Kakao Kanana-2 update, Solar Pro 3 blog, K-EXAONE Technical Report, A.X K1 HF 모델).

둘째, 멀티모달은 이제 옵션이 아니라 기본 노선이다

EXAONE 4.5는 문서형 VLM, HyperCLOVA X SEED Omni 8B는 텍스트·이미지·오디오 통합, Kanana-o는 텍스트·음성·이미지 통합, HyperCLOVA X mainline도 reasoning과 multimodal을 분리 라인업으로 관리한다. 한국 모델들이 텍스트-only에서 오래 머무를 가능성은 낮다.

셋째, “한국어를 잘하는가”보다 “한국 업무를 잘 이해하는가”가 더 중요해진다

이 흐름은 제목보다 본문에서 강조할 가치가 크다. 앞으로 국내 시장의 승부처는 단순한 번역형 한국어가 아니라 행정 문서, 공공 포맷, 금융/법률 문맥, 기업 내부 지식, 로컬 보안 요구가 될 가능성이 높다. 즉 한국 모델의 무기는 범용 1위보다 한국 맥락의 산업 적합성에 있다.

FAQ: EXAONE 4.5와 한국 로컬 LLM에 대해 자주 묻는 질문

EXAONE 4.5는 허깅페이스에 공개됐는데 회사 서비스에 바로 써도 되나?

안 된다. 2026년 5월 2일 기준 EXAONE 4.5는 EXAONE AI Model License Agreement 1.2 - NC가 붙어 있어 상업적 이용이 금지된다. 연구나 내부 실험용으로는 의미가 있지만 제품 연동용으로 보면 안 된다.

한국 로컬 LLM 중에서 상업 사용이 가장 깔끔한 축은 무엇인가?

내가 확인한 공개 가중치 기준으로는 Mi:dm 2.0의 MIT, Kakao Kanana 1.5의 Apache 2.0이 가장 해석이 단순한 편이다. 다만 최신 계열로 갈수록 커스텀 라이선스가 섞여 있으니 모델별 확인이 필요하다.

EXAONE 4.5는 한국어를 정말 잘하나?

잘한다. 다만 강점의 성격이 중요하다. EXAONE 4.5는 문서 이해와 멀티모달 한국어 문맥에서 경쟁력이 크고, KoBALT나 KMMLU-Pro 같은 언어 전용 지표에서는 글로벌 프런티어나 더 큰 모델에 항상 앞선다고 말하기 어렵다.

국내 모델 중 개인이 가장 현실적으로 실험하기 좋은 건 무엇인가?

대형 모델보다 Mi:dm 2.0 Mini, Kanana 1.5 2.1B 같은 작은 체급이 현실적이다. EXAONE 4.5, SEED Think 32B, A.X 4.0 72B는 기술적으로 셀프호스트 가능해도 하드웨어 장벽이 높다.

API로 쓰려면 한국 모델 중 무엇이 가장 최신인가?

내가 공식 페이지로 확인한 기준에서는 Upstage Solar Pro 3와 HyperCLOVA X mainline이 가장 선명하다. Solar Pro 3는 2026년 3월 공식 블로그 기준 최신 플래그십이고, HyperCLOVA X는 CLOVA Studio에서 HCX-007·005·DASH-002를 운영 중이다.

한국 로컬 LLM은 앞으로 글로벌 모델을 따라잡을 수 있나?

범용 전체 성능을 단기간에 뒤집는 건 쉽지 않다. 대신 한국 맥락, 보안, 온프레미스, 문서형 멀티모달에서는 이미 독자 축을 만들고 있다. 시장 승부처도 그 방향으로 이동 중이다.

결론: 2026년 5월 한국 로컬 LLM 시장을 어떻게 읽어야 하나?

결론은 단순하다. EXAONE 4.5는 한국 모델이 세계를 완전히 뒤집었다는 신호가 아니라, 한국 기업이 33B급 오픈 웨이트 VLM으로 문서형 멀티모달 경쟁권에 본격 진입했다는 신호에 가깝다. 그리고 한국 로컬 LLM 전체로 보면, 지금은 “누가 제일 똑똑한가”보다 “누가 한국 업무 맥락을 더 잘 이해하고, 어떤 라이선스로, 어떤 하드웨어에서, 어떤 보안 조건으로 배포할 수 있는가”가 더 중요하다.

이 글의 최종 판단

한국 로컬 LLM은 아직 범용 프런티어 전체 1위를 말할 단계는 아니지만, 한국어 문서와 한국 맥락, 온프레미스 보안, 에이전트형 업무 환경에서는 더 이상 변방이라고 부르기 어려운 수준까지 올라왔다.

가장 실무적인 해석

연구용 문서 VLM이 필요하면 EXAONE 4.5를, 상용 셀프호스트가 필요하면 Mi:dm 2.0·Kanana·A.X·SEED를, 빠른 API 도입이 필요하면 Solar Pro 3·HyperCLOVA X를 먼저 보는 식으로 나누면 판단이 쉬워진다.

상업 사용 여부부터 고른다

EXAONE 4.5처럼 성능이 좋아도 NC면 제품 후보에서 제외한다.

API냐 셀프호스트냐를 먼저 정한다

토큰 단가를 낼지, GPU와 운영비를 낼지 선택해야 비교가 시작된다.

한국어 벤치를 용도별로 본다

KMMLU, KoBALT, KMMMU, CLIcK은 보는 능력이 다르므로 한 줄 순위로 합치지 않는다.

한국 맥락과 문서 워크로드를 따로 본다

범용 최고점보다 한국 행정·법률·금융·문서 처리에서의 실제 적합성이 더 중요할 수 있다.

참고 자료