Gemini 3.5 Flash 총정리: 가격·벤치마크·해외 반응

3줄 요약

Gemini 3.5 Flash는 2026년 5월 19일 공개된 구글의 새 Flash 모델이다. 결론부터 말하면 “싼 모델”보다 “빠른 에이전트 모델”에 가깝다.
공식 가격은 입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9.00이고, 1M 입력 컨텍스트와 65K 출력 토큰을 지원한다.
해외 반응은 선명하게 갈린다. 속도와 코딩 반복은 호평이지만, 이전 Flash 대비 가격 인상과 쿼터 소진, 실제 앱 완성도 불만이 크다.

Gemini 3.5 Flash는 한 줄로 무엇인가?
공식 스펙과 가격은 어떻게 읽어야 할까?
벤치마크에서 진짜 강한 영역은 어디일까?
API 개발자는 무엇을 바꿔야 할까?
비용 논란은 왜 이렇게 큰가?
해외 반응은 왜 이렇게 갈릴까?
GPT-5.5와 Claude와 비교하면 어디에 맞을까?
어떤 사용자에게 바로 써볼 가치가 있을까?
한계와 주의점은 무엇인가?
FAQ: Gemini 3.5 Flash 질문은?
결론: 지금 써야 할까?

Gemini 3.5 Flash는 “Flash니까 싸고 가볍다”는 기존 감각으로 보면 오해하기 쉽다. 2026년 5월 19일 Google I/O에서 공개된 이 모델은 gemini-3.5-flash라는 안정 GA 모델이고, 구글은 코딩·에이전트·장기 툴 사용에 맞춘 Flash 라인으로 설명한다 (출처: Google Gemini 3.5 발표, Gemini 3.5 Flash 모델 문서).

다만 이 글의 핵심은 출시 소식 요약이 아니다. 공식 문서를 먼저 기준으로 삼되, Artificial Analysis, Simon Willison, Hacker News, Reddit 같은 해외 반응을 함께 읽어야 실제 그림이 보인다. 구글은 속도와 에이전트 성능을 전면에 세우지만, 해외 개발자들은 “이제 Flash가 정말 저렴한가”와 “벤치마크만큼 앱을 잘 끝내는가”를 훨씬 거칠게 묻고 있다. 이 흐름은 GPT-5.5 총정리와 클로드 코드 가격·한도 총정리에서 본 2026년 프런티어 모델 가격 재조정과도 이어진다.

이 글의 기준

본문의 출시일, 가격, 컨텍스트, API 변경점, 벤치마크는 공식 문서를 우선한다. Reddit과 Hacker News 반응은 해외 사용자 분위기를 보여주는 보조 자료로만 쓴다. 단편적 경험을 일반 성능으로 단정하지 않는다.

Gemini 3.5 Flash는 한 줄로 무엇인가?

Gemini 3.5 Flash는 구글이 Flash 라인에 “속도”만이 아니라 “에이전트 실행력”을 본격적으로 얹은 모델이다. 단순 질의응답용 경량 모델보다, 도구를 여러 번 호출하고 코드를 반복 수정하고 긴 작업을 빠르게 돌리는 상황을 겨냥한다.

출시일과 모델 ID는 무엇인가?

공식 발표일은 2026년 5월 19일이다. API 모델 ID는 gemini-3.5-flash이며, Google AI Studio와 Gemini API 문서에서 바로 확인된다 (출처: Google 발표, 모델 문서).

중요한 점은 preview가 아니라 일반 제공(GA)으로 나왔다는 것이다. 구글의 개발자 문서는 Gemini 3.5 Flash를 “stable”이고 “scaled production use”에 준비된 모델로 설명한다 (출처: What’s new in Gemini 3.5 Flash).

왜 Flash인데 에이전트 모델인가?

구글은 Gemini 3.5 Flash의 핵심을 sub-agent 배포, multi-step workflow, long-horizon task, rapid agentic loop로 잡는다. 즉 “빠른 답변”보다 “빠른 반복”이 포인트다. 코딩 에이전트에서 한 번에 끝내기보다 테스트하고, 다시 고치고, 다른 경로를 탐색하는 루프가 짧아지는 쪽이다.

이 관점은 AI 앱은 프롬프트가 아니라 하네스로 완성된다에서 다룬 문제와 맞닿아 있다. 모델이 좋아져도 실제 품질은 모델 혼자보다 실행 환경, 도구 호출, 검증 루프가 함께 결정한다.

구글 생태계에서는 어디에 들어가나?

Gemini 3.5 Flash는 Gemini 앱, Google Search의 AI Mode, Google AI Studio, Android Studio, Google Antigravity, Gemini Enterprise 쪽으로 동시에 들어간다. Search 발표문은 AI Mode의 기본 모델을 Gemini 3.5 Flash로 업그레이드한다고 적었다 (출처: Google Search I/O 2026 업데이트).

따라서 이 모델은 개발자 API만의 출시가 아니다. 구글이 검색, 앱, 에이전트 개발도구, 기업 플랫폼을 하나의 Flash 모델 중심으로 묶으려는 신호로 읽는 편이 맞다.

공식 스펙과 가격은 어떻게 읽어야 할까?

숫자만 보면 Gemini 3.5 Flash는 명확하다. 입력은 길고, 출력도 넉넉하며, 멀티모달 입력을 받는다. 하지만 가격표를 읽는 순간 “Flash = 싸다”는 결론은 바로 흔들린다.

핵심 스펙은 어디까지인가?

Gemini API 모델 문서는 Gemini 3.5 Flash가 텍스트, 이미지, 비디오, 오디오, PDF 입력을 받고 텍스트를 출력한다고 밝힌다. 입력 컨텍스트는 1,048,576 토큰, 최대 출력은 65,536 토큰이다 (출처: Gemini 3.5 Flash 모델 문서).

모델 요약 Gemini 3.5 Flash

API 가격 입력 $1.50 / 출력 $9.00 per 1M tokens

01 2026년 5월 19일 GA 공개

02 모델 ID: gemini-3.5-flash

03 입력 1,048,576 토큰

04 출력 65,536 토큰

05 텍스트·이미지·비디오·오디오·PDF 입력 지원

ai.google.dev/gemini-api/docs/models/gemini-3.5-flash

가격표에서 중요한 문장은 무엇인가?

공식 가격표 기준 Paid Tier는 입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9.00이다. 출력 가격에는 thinking 토큰이 포함된다. 캐시 입력은 100만 토큰당 $0.15이고, 별도 저장 가격이 붙는다 (출처: Gemini API pricing).

항목	Gemini 3.5 Flash	읽는 법
입력 가격	$1.50 / 1M tokens	이전 Flash 계열보다 높은 편
출력 가격	$9.00 / 1M tokens	thinking 토큰 포함
캐시 입력	$0.15 / 1M tokens	반복 컨텍스트가 많을 때 중요
입력 컨텍스트	1,048,576 tokens	긴 문서와 긴 에이전트 세션 가능
최대 출력	65,536 tokens	긴 코드·보고서 출력에 유리
Free Tier 데이터	제품 개선에 사용될 수 있음	민감한 데이터는 Paid/Enterprise 확인 필요
Paid Tier 데이터	제품 개선에 사용되지 않음	업무용 API 판단의 핵심

무료와 유료의 데이터 정책도 같이 봐야 한다

가격표에는 기능만 있는 것이 아니다. Free Tier는 content used to improve our products라고 표시되어 있고, Paid Tier는 content not used to improve our products라고 표시된다. 즉 개인 실험은 무료로 시작할 수 있지만, 업무 문서나 내부 코드를 넣는다면 결제 티어와 조직 정책을 먼저 확인해야 한다 (출처: Gemini API pricing).

이 지점은 NotebookLM 사용법 2026에서 다룬 구글 계정별 데이터 정책과도 결이 비슷하다. 구글 도구는 무료 접근이 넓은 대신, 어떤 계정과 어떤 티어로 쓰는지가 실제 리스크를 가른다.

벤치마크에서 진짜 강한 영역은 어디일까?

Gemini 3.5 Flash가 강한 영역은 코딩 에이전트, MCP 기반 워크플로, 멀티모달 추론이다. 반대로 순수 추론 깊이나 일부 긴 컨텍스트 검색에서는 3.1 Pro, GPT-5.5, Claude Opus 4.7이 더 강한 지표도 남아 있다.

코딩과 에이전트 점수는 분명히 올랐다

공식 모델 카드 기준 Gemini 3.5 Flash는 Terminal-Bench 2.1에서 76.2%, MCP Atlas에서 83.6%, OSWorld-Verified에서 78.4%를 기록한다. 이전 Gemini 3 Flash의 58.0%, 62.0%, 65.1%와 비교하면 에이전트형 작업의 점프가 크다 (출처: Gemini 3.5 Flash 모델 카드).

벤치마크	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Claude Opus 4.7	GPT-5.5
Terminal-Bench 2.1	76.2%	58.0%	70.3%	66.1%	78.2%
SWE-Bench Pro	55.1%	49.6%	54.2%	64.3%	58.6%
MCP Atlas	83.6%	62.0%	78.2%	79.1%	75.3%
OSWorld-Verified	78.4%	65.1%	76.2%	78.0%	78.7%
CharXiv Reasoning	84.2%	80.3%	83.3%	82.1%	84.1%
Humanity's Last Exam	40.2%	33.7%	44.4%	46.9%	41.4%
ARC-AGI-2	72.1%	33.6%	77.1%	75.8%	84.6%
MRCR v2 128K	77.3%	67.2%	84.9%	59.3%	94.8%

멀티모달은 구글의 확실한 강점이다

CharXiv Reasoning 84.2%, MMMU-Pro 83.6%는 Gemini 3.5 Flash가 차트와 시각 정보를 읽는 작업에서 강하다는 신호다. 특히 텍스트뿐 아니라 이미지, 비디오, 오디오 입력까지 한 모델에서 받는 점은 많은 경쟁 모델과 구분된다 (출처: 모델 카드, 모델 문서).

다만 “멀티모달 입력”과 “이미지·오디오 생성”은 다르다. 3.5 Flash는 텍스트 출력 모델이고, 공식 문서상 오디오 생성은 지원하지 않는다.

순수 추론과 긴 컨텍스트는 완승이 아니다

Humanity’s Last Exam에서는 40.2%로 Gemini 3.1 Pro 44.4%, Claude Opus 4.7 46.9%보다 낮다. ARC-AGI-2도 72.1%로 GPT-5.5의 84.6%, Gemini 3.1 Pro의 77.1%보다 낮다. 128K MRCR도 77.3%로 3.1 Pro와 GPT-5.5보다 뒤진다 (출처: 모델 카드).

그래서 이 모델을 “모든 지표의 1위”로 쓰면 틀린다. 더 정확한 문장은 이렇다. Gemini 3.5 Flash는 Flash 계열의 속도 위에 에이전트 성능을 얹었고, 특히 MCP·코딩·멀티모달 작업에서 강하다. 하지만 깊은 추론, 실제 GitHub 이슈 해결, 긴 컨텍스트 검색 일부에서는 여전히 경쟁 모델을 봐야 한다.

Gemini 3.5 Flash의 속도와 비용 트레이드오프를 보여주는 다크 톤 인포그래픽 — Gemini 3.5 Flash의 핵심 긴장은 속도와 비용이다. 본문 표처럼 성능은 뛰지만, 출력과 thinking 토큰 가격이 이전 Flash 감각을 흔든다.

API 개발자는 무엇을 바꿔야 할까?

Gemini 3.5 Flash는 단순히 모델 이름만 바꾸면 끝나는 업데이트가 아니다. 구글은 thinking_level 중심의 새 설정, 더 엄격한 함수 응답 매칭, Interactions API 방향을 함께 밀고 있다.

모델 이름만 바꾸는 마이그레이션은 부족하다

공식 체크리스트는 gemini-3-flash-preview에서 gemini-3.5-flash로 모델명을 바꾸라고 한다. 하지만 바로 다음 항목들이 더 중요하다. 가격을 재검토하고, temperature, top_p, top_k를 제거하고, thinking_budget 대신 thinking_level을 쓰고, function response의 id, name, 응답 개수를 맞춰야 한다 (출처: What’s new in Gemini 3.5 Flash).

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "이 코드베이스의 결제 흐름을 요약하고 리스크를 찾아줘.",
  config: {
    thinkingConfig: {
      thinkingLevel: "medium",
    },
  },
});

thinking_level은 비용 조절 장치다

기본 thinking effort는 medium으로 바뀌었다. minimal은 빠른 응답, low는 낮은 지연과 적은 단계가 필요한 코드·에이전트 작업, medium은 기본 복잡 작업, high는 어려운 추론과 긴 도구 사용에 맞춘다 (출처: What’s new in Gemini 3.5 Flash).

thinking_level	추천 작업	비용/지연 감각
minimal	간단한 사실 확인, 짧은 챗	가장 빠르고 가벼움
low	낮은 지연이 중요한 코드·분석	품질과 비용의 절충
medium	복잡한 코드와 일반 에이전트 작업	기본값, 대부분의 작업 추천
high	어려운 수학, 장기 도구 사용, 고난도 코드	가장 깊지만 비용과 지연 증가

thought preservation은 성능과 비용을 동시에 키운다

GenerateContent API에서는 conversation history 안의 thought signature를 보존하면 이전 턴의 reasoning context를 이어받는다. 이것은 긴 리팩터링이나 다단계 작업에서 유리하다. 동시에 공식 문서는 preserved thoughts가 여러 턴에 걸쳐 입력 토큰을 늘릴 수 있다고 경고한다 (출처: What’s new in Gemini 3.5 Flash).

개발자 체크포인트

3.5 Flash로 바꾼 뒤 비용이 튄다면 먼저 thinking_level을 낮추고, 불필요한 도구 호출을 제한하는 system instruction을 넣고, 긴 대화에서 thought signature가 누적되는지 확인해야 한다. 모델 교체보다 운영 파라미터 검증이 먼저다.

Gemini 3.5 Flash API 마이그레이션에서 기존 설정, thinking_level, 함수 응답 매칭, 테스트 필수를 보여주는 인포그래픽 — API 마이그레이션의 핵심은 모델명 교체보다 설정과 함수 응답 계약을 다시 검증하는 일이다.

비용 논란은 왜 이렇게 큰가?

비용 논란은 단순한 불평이 아니다. Gemini 3.5 Flash는 토큰당 가격만 봐도 이전 Flash보다 비싸졌고, 에이전트 루프가 길어질수록 thinking과 입력 토큰이 함께 늘어날 수 있다.

공식 가격은 이전 Flash 감각보다 높다

Paid Tier 기준 $1.50 입력, $9.00 출력은 Pro급 모델보다 낮아 보일 수 있다. 하지만 Flash 계열을 “저렴한 대량 처리 모델”로 보던 개발자에게는 꽤 큰 변화다. Simon Willison은 3.5 Flash가 3 Flash Preview보다 3배, 3.1 Flash-Lite보다 6배 비싸졌다고 정리했다 (출처: Simon Willison).

이 흐름은 OpenAI와 Anthropic에서도 비슷하게 보인다. GPT-5.5 총정리에서 다룬 것처럼, 2026년 상위 모델들은 단순히 더 좋아지는 것이 아니라 더 비싼 작업 모델로 재배치되고 있다.

실제 작업 비용은 토큰당 가격보다 복잡하다

Artificial Analysis는 Gemini 3.5 Flash가 280+ output tokens/s 수준의 속도와 높은 지능 점수를 보인다고 평가하면서도, Intelligence Index를 돌리는 비용이 Gemini 3 Flash보다 5.5배, Gemini 3.1 Pro보다 75% 높았다고 분석했다. 핵심 원인은 가격 인상뿐 아니라 에이전트 평가에서 입력 턴이 늘어난 점이다 (출처: Artificial Analysis 기사, Artificial Analysis 모델 페이지).

관점	좋아 보이는 이유	주의할 이유
토큰 단가	Gemini 3.1 Pro보다 낮은 $1.50 / $9.00	이전 Flash보다 3배 비싸짐
속도	반복 루프가 빨라짐	빠르게 더 많은 턴을 태울 수 있음
thinking	복잡한 문제 해결에 도움	출력 가격에 포함되어 비용 체감이 커짐
에이전트	MCP·코딩 벤치마크 강함	도구 호출 과다와 쿼터 소진 리스크
캐싱	반복 문맥 비용 절감 가능	설계하지 않으면 자동으로 싸지지 않음

그래서 “싸다”보다 “빠른 고급 Flash”가 정확하다

Gemini 3.5 Flash는 여전히 일부 프런티어 모델보다 빠르고 저렴할 수 있다. 하지만 이전 Flash처럼 무심코 대량 호출하는 모델은 아니다. 특히 코딩 에이전트, 긴 세션, 다중 도구 호출, 긴 thought preservation을 쓰면 작업당 비용을 반드시 재측정해야 한다.

해외 반응은 왜 이렇게 갈릴까?

해외 반응은 크게 세 갈래다. 첫째, 속도와 코딩 반복에 대한 강한 호평. 둘째, 가격과 쿼터에 대한 불만. 셋째, 벤치마크는 좋은데 실제 앱 완성도는 들쭉날쭉하다는 경험담이다.

긍정 반응은 거의 속도에서 시작한다

Reddit의 해외 사용자들은 “무서울 정도로 빠르다”, “Claude보다 훨씬 빠르게 반복한다”는 반응을 많이 남겼다. 어떤 사용자는 3JS 게임 재현을 20분 안에 만들었다고 했고, 또 다른 사용자는 TypeScript 리팩터링에서 속도 덕분에 iteration speed가 크게 좋아졌다고 적었다 (출처: r/singularity 의견 스레드).

Antigravity 쪽에서도 “너무 빨라서 이전 답변이 다시 보인 줄 알았다”는 식의 반응이 나왔다. 이 반응은 공식 벤치마크보다 체감에 가깝지만, Flash 라인이 왜 에이전트 환경과 묶이는지는 설명해준다.

부정 반응은 비용과 완성도에서 나온다

반대로 r/GeminiAI에서는 “가짜 앱 껍데기”만 만든다는 강한 비판도 있었다. 백엔드가 연결되지 않은 UI만 만들거나, 기존 코드를 제대로 고치지 않고 다운로드 파일처럼 포장했다는 식의 사례다 (출처: r/GeminiAI 실사용 불만 스레드).

Hacker News와 Reddit의 Antigravity 관련 스레드에서는 쿼터가 너무 빨리 닳는다는 불만도 반복된다. 어떤 사용자는 몇 번의 반복 뒤 “Individual quota reached”를 봤다고 적었다 (출처: Hacker News 스레드, r/mlscaling 토론).

반응은 벤치마크와 모순되지 않는다

이 반응들이 공식 벤치마크를 부정하는 것은 아니다. 에이전트 벤치마크는 특정 harness와 조건 안에서 측정된다. 실제 제품 개발은 디자인 취향, 기존 코드 이해, 테스트 습관, 쿼터, 프롬프트 품질, IDE 통합 상태까지 같이 탄다. 그래서 “속도는 대단한데 완성도는 아직 불안하다”는 반응은 충분히 동시에 성립한다.

긍정 반응

"속도가 미쳤다. Opus보다 취향은 덜 맞아도 반복 속도는 크게 좋아졌다." — r/singularity · 해외 사용자 요약
"복잡한 3JS 게임을 20분 안에 재현했다는 사례가 나왔다." — r/singularity · anecdotal
"Artificial Analysis는 지능 대 속도 파레토의 새 리더로 평가했다." — Artificial Analysis

부정 반응

"실제 앱 대신 연결 안 된 껍데기 UI를 만든다는 불만이 있다." — r/GeminiAI · anecdotal
"몇 번의 Antigravity 반복 뒤 주간 쿼터가 닳았다는 보고가 있다." — Hacker News / Reddit · anecdotal
"이전 Flash보다 비싸져 API 고객의 가격 저항선을 시험하는 느낌이라는 해석이 나왔다." — Simon Willison 요약

Gemini 3.5 Flash 해외 반응을 속도 호평, 비용 논쟁, 실사용 불만 세 축으로 나눈 인포그래픽 — 해외 반응은 하나의 결론으로 모이지 않는다. 속도는 호평, 비용은 논쟁, 실제 앱 완성도는 경험 차이가 크다.

GPT-5.5와 Claude와 비교하면 어디에 맞을까?

Gemini 3.5 Flash는 GPT-5.5나 Claude Opus 4.7을 단순히 대체하는 모델이 아니다. 빠른 반복과 멀티모달 입력이 중요한 작업에서는 강하지만, 깊은 코딩 패치나 고난도 추론에서는 다른 모델이 더 나은 선택일 수 있다.

GPT-5.5와는 속도와 깊이의 싸움이다

공식 모델 카드의 GPT-5.5 비교를 보면 Terminal-Bench 2.1은 GPT-5.5가 78.2%로 Gemini 3.5 Flash의 76.2%보다 높다. OSWorld도 GPT-5.5가 78.7%로 근소하게 앞선다. 반면 MCP Atlas는 Gemini 3.5 Flash가 83.6%로 GPT-5.5의 75.3%보다 높다 (출처: 모델 카드).

즉 모델 선택은 “누가 최신인가”가 아니라 “내 작업이 빠른 도구 반복인가, 깊은 장기 패치인가”로 가야 한다. GPT-5.5 쪽 전체 맥락은 GPT-5.5 총정리를 같이 보면 판단이 빠르다.

Claude Opus 4.7과는 완성도와 비용의 싸움이다

SWE-Bench Pro에서는 Claude Opus 4.7이 64.3%로 Gemini 3.5 Flash의 55.1%보다 높다. 복잡한 실제 코드베이스 이슈 해결에서는 Claude 계열이 더 안정적으로 느껴질 수 있다는 커뮤니티 반응도 여기에 붙는다. 다만 Opus급 모델은 비용이 훨씬 높아질 수 있다.

따라서 “Claude가 더 낫다”보다 더 실용적인 기준은 이렇다. 어려운 PR 하나를 끝까지 고치는 작업이면 Claude나 GPT-5.5를 후보에 두고, 많은 후보 패치를 빠르게 탐색하는 작업이면 Gemini 3.5 Flash가 매력적이다.

Gemini 3.1 Pro와는 용도가 갈린다

Gemini 3.5 Flash는 3.1 Pro보다 여러 에이전트·코딩 지표에서 앞서지만, HLE와 MRCR 128K 같은 지표에서는 3.1 Pro가 더 좋다. 단순한 버전 숫자보다 작업 성격이 중요하다.

작업	먼저 볼 모델	이유
빠른 코딩 반복	Gemini 3.5 Flash	속도와 MCP Atlas 강점
실제 GitHub 이슈 해결	Claude Opus 4.7 / GPT-5.5	SWE-Bench Pro 지표 우위
멀티모달 분석	Gemini 3.5 Flash	이미지·비디오·오디오 입력과 CharXiv 강점
깊은 순수 추론	GPT-5.5 / Claude Opus 4.7	HLE, ARC-AGI류 지표 확인 필요
대량 경량 작업	Flash-Lite 계열	3.5 Flash의 에이전트 프리미엄이 낭비될 수 있음

어떤 사용자에게 바로 써볼 가치가 있을까?

Gemini 3.5 Flash는 “새 모델이니까 무조건 바꾼다”보다 라우팅 후보로 넣는 편이 안전하다. 빠른 반복이 병목인 팀에게는 가치가 크고, 대량 경량 작업이나 민감한 비용 구조에서는 조심해야 한다.

코딩 에이전트 사용자는 테스트해볼 만하다

Antigravity, AI Studio, Gemini API로 코딩 에이전트를 돌리는 사용자라면 테스트 가치는 충분하다. 특히 한 답변의 완성도보다 여러 경로를 빠르게 실험하는 workflow라면 Flash의 속도가 체감될 수 있다.

다만 바로 기본 모델로 갈아타기보다, 기존 작업 로그 10~20개를 기준으로 성공률, 재시도 횟수, 총 토큰, 쿼터 소모를 함께 비교하는 편이 좋다. 모델 벤치마크보다 내 워크플로 비용표가 더 정직하다.

문서·리서치·멀티모달 작업도 후보가 된다

PDF, 이미지, 오디오, 비디오 입력을 섞어 분석하는 작업에서는 Gemini 3.5 Flash가 꽤 자연스럽다. 특히 구글 생태계 안에서 Search, Gemini, NotebookLM, AI Studio를 함께 쓰는 사용자라면 연결성이 좋다. 구글 도구 흐름은 NotebookLM 사용법 2026에서 다룬 자료 정리 방식과 함께 읽으면 좋다.

대량 번역과 단순 분류에는 과할 수 있다

반대로 번역, 분류, 간단한 추출처럼 도구 호출과 깊은 thinking이 거의 필요 없는 작업이라면 3.5 Flash는 비용이 과할 수 있다. 이런 작업은 더 싼 Flash-Lite 계열이나 다른 저가 모델을 따로 라우팅하는 편이 낫다.

1. 기존 작업 로그 10개 선정

코딩, 문서 분석, 번역처럼 서로 다른 작업군을 나눠 대표 프롬프트를 고른다.

2. thinking_level을 medium과 low로 비교

품질 차이와 비용 차이가 실제로 얼마나 나는지 먼저 본다.

3. 총비용을 작업 단위로 계산

입력, 출력, 캐시, 재시도, 쿼터 소모를 함께 기록한다.

4. 기본 모델이 아니라 라우팅 후보로 넣기

빠른 에이전트 작업에는 3.5 Flash, 경량 작업에는 저가 모델을 쓰는 식으로 나눈다.

한계와 주의점은 무엇인가?

Gemini 3.5 Flash의 한계는 성능 부족 하나로 설명되지 않는다. 공식 기능 미지원, 비용 예측, 쿼터 불투명성, 커뮤니티 체감 차이를 함께 봐야 한다.

Computer Use는 아직 지원하지 않는다

공식 문서는 Gemini 3.5 Flash에서 Computer Use가 현재 지원되지 않는다고 적는다. 해당 워크로드는 Gemini 3 Flash Preview를 계속 쓰라는 안내도 있다 (출처: What’s new in Gemini 3.5 Flash).

이건 브라우저와 OS를 직접 조작하는 자동화 작업을 설계하는 팀에게 중요하다. “에이전트 모델”이라는 말만 보고 모든 컴퓨터 사용 기능이 들어왔다고 보면 안 된다.

안전과 거절 품질은 공식적으로 개선됐다

모델 카드는 Frontier Safety Framework 기반 평가와 안전 개선을 설명한다. 구글은 Gemini 3.5 Flash가 사이버와 CBRN safeguards를 강화했고, 안전한 질문에 대한 부당한 거절도 낮게 유지한다고 설명한다 (출처: Google 발표, 모델 카드).

하지만 안전 문구는 어디까지나 모델 카드 기준의 평가다. 특정 앱에서의 안전성은 프롬프트, 도구 권한, 로그 관리, 사용자 데이터 정책까지 포함해 다시 설계해야 한다.

해외 불만은 과장도, 무시할 신호도 아니다

Reddit의 “fake app shells”나 쿼터 불만은 단편 사례다. 그대로 일반화하면 부정확하다. 그러나 이런 불만이 반복되는 이유는 분명하다. 에이전트 모델은 한 번 실패하면 단순 답변보다 비용과 시간 손실이 크다. 빠른 모델일수록 잘못된 루프도 빠르게 돈을 태울 수 있다.

실무 도입 전 최소 점검

Gemini 3.5 Flash를 기본값으로 넣기 전에 1. 실제 작업별 총 토큰, 2. 실패 후 재시도 횟수, 3. 쿼터 소모 속도, 4. thinking_level별 품질 차이, 5. 민감 데이터가 Free Tier로 들어가지 않는지를 먼저 확인해야 한다.

FAQ: Gemini 3.5 Flash 질문은?

Gemini 3.5 Flash는 무료로 쓸 수 있나요?

Gemini API에는 Free Tier가 있지만, 무료 티어의 콘텐츠는 Google 제품 개선에 사용될 수 있다. 업무 데이터나 내부 코드를 다룬다면 Paid Tier나 Enterprise 정책을 확인하는 편이 안전하다.

Gemini 3.5 Flash 가격은 얼마인가요?

공식 Paid Tier 기준 입력 100만 토큰당 1.50달러, 출력 100만 토큰당 9.00달러다. 출력 가격에는 thinking 토큰이 포함된다.

Gemini 3.5 Flash는 Gemini 3.1 Pro보다 좋은가요?

에이전트와 코딩 일부 지표에서는 앞서지만, HLE나 긴 컨텍스트 일부 지표에서는 3.1 Pro가 더 나은 영역도 있다. 작업별로 봐야 한다.

Computer Use도 지원하나요?

아니다. 공식 문서는 Gemini 3.5 Flash가 현재 Computer Use를 지원하지 않는다고 안내한다.

temperature, top_p, top_k는 계속 써도 되나요?

구글은 Gemini 3.x 모델에서 기본 샘플링 설정을 바꾸지 말 것을 강하게 권고한다. 대신 thinking_level로 사고 강도를 조절하는 방향이다.

해외 반응은 대체로 좋은가요?

속도와 코딩 반복은 좋다는 반응이 많다. 하지만 가격 인상, 쿼터 소진, 실제 앱 완성도에 대한 불만도 크다. 반응은 뚜렷하게 양분된다.

결론: 지금 써야 할까?

Gemini 3.5 Flash는 써볼 만하다. 하지만 기본 모델로 무작정 교체하기보다, 빠른 에이전트 루프와 멀티모달 입력이 필요한 작업에 먼저 넣어보는 편이 좋다. 이 모델의 장점은 빠른 반복과 에이전트 성능이고, 약점은 Flash라는 이름과 달리 커진 비용 감각이다.

핵심 판단

Gemini 3.5 Flash는 “저렴한 Flash”가 아니라 “빠른 에이전트 Flash”다. 속도가 돈을 아껴주는 작업에서는 강하고, 단순 대량 작업에서는 오히려 비용이 커질 수 있다.

바로 쓸 팀은 누구인가?

코딩 에이전트, MCP 기반 도구 호출, 긴 문서 분석, 멀티모달 입력이 많은 팀은 바로 테스트해볼 가치가 있다. 특히 기존 모델에서 속도가 병목이라면 Gemini 3.5 Flash는 충분히 흥미로운 후보가 된다.

기다려도 되는 팀은 누구인가?

번역, 분류, 짧은 답변, 단순 추출처럼 가벼운 작업이 대부분이라면 기다려도 된다. 이런 워크로드는 더 싼 모델로 충분할 가능성이 높다. 구글 모델을 로컬이나 오픈 계열 관점에서 보고 싶다면 Gemma 4 완전 정리를 함께 보는 것도 좋다.

마지막 체크리스트는 무엇인가?

공식 가격 재확인

배포 직전 ai.google.dev pricing 페이지에서 입력, 출력, 캐시 가격을 다시 확인한다.

작업당 비용 측정

토큰 단가가 아니라 성공한 작업 하나당 비용과 재시도 횟수를 기록한다.

API 설정 정리

temperature, top_p, top_k를 제거하고 thinking_level과 function response matching을 점검한다.

커뮤니티 반응은 보조 자료로만 사용

해외 반응은 좋은 위험 신호지만, 내 제품의 품질 판단은 자체 테스트로 끝내야 한다.

주요 참고 자료