Gemma 4란? 오픈 모델 특징부터 로컬 AI 설정·사용법까지

밸런스 UP

1시간 전

조회수

AI가 단순 챗봇을 넘어 나 대신 일하는 AI 에이전트로 변화하고 있습니다. 구글 딥마인드가 모델 가중치(weights)를 공개해 사용자가 직접 내려받아 실행하고, 목적에 맞게 수정할 수 있는 오픈 모델을 선보였습니다. 바로 ‘Gemma 4’입니다.

Gemma 4는 Apache 2.0 라이선스로 공개돼 자체 서비스에 적용하거나 미세 조정할 수 있습니다. 오픈 모델임에도 고급 추론과 코딩, 에이전트 워크플로를 고려해 설계 되어 내부 AI 에이전트 모델로 사용하기 적합하다는 평이 있습니다.

이 글에서는 Gemma 4가 무엇인지, 오픈 모델이라는 게 왜 중요한지, 어떤 크기와 기능을 제공하는지, 그리고 어디에 쓸 수 있는지 IT 관점에서 정리하겠습니다.

핵심 요약

무엇인가 | 구글 딥마인드가 만든 오픈 모델 제품군입니다. 가중치가 공개돼 누구나 내려받아 자기 기기에서 돌리고 수정할 수 있습니다. 2026년 3월 31일 출시됐습니다.
자유로운 라이선스 | Apache 2.0 라이선스로, 월 사용자 수 제한이나 별도 허가 없이 상업적으로 쓸 수 있습니다.
크기 대비 성능 | 스마트폰용(E2B)부터 워크스테이션용(31B)까지. 31B 모델은 오픈 모델 순위 상위권에 올랐고, 자기보다 훨씬 큰 모델과 경쟁합니다.
온디바이스 구동 | 작은 모델은 폰·라즈베리파이 같은 기기에서 인터넷 없이 완전히 오프라인으로 돌아갑니다.
멀티모달·다국어 | 텍스트와 이미지를 함께 처리하고(일부는 오디오까지), 140개 이상 언어를 지원하며, 최대 256K 토큰의 긴 맥락을 다룹니다.

Gemma 4란?

Gemma 4는 구글 딥마인드가 만든 오픈 모델(open model) 제품군입니다. 구글의 대표 AI 모델인 Gemini 같은 대규모 상용 모델과 동일한 기술로 개발됐지만, 모델 가중치를 공개해 누구나 자신의 컴퓨터나 서버에 직접 설치하고 실행할 수 있도록 만든 AI 모델입니다.

Gemma 4가 주목받는 이유

오픈 모델이지만 뛰어난 가성비

Gemma4는 파라미터당 성능을 높여, 적은 연산 자원으로도 높은 성능을 낼 수 있도록 설계되었습니다. 덕분에 큰 모델에 가까운 성능 대비 추론 시 필요한 GPU 메모리와 연산량은 적게 들어, 실제 서비스에 활용할 때 타 모델 대비 운영 부담이 낮습니다.

내 환경에서 직접 실행

모델을 내 기기나 서버에 두고 돌리므로, 데이터를 외부 API로 보내지 않아도 됩니다. 민감한 데이터를 다루는 기업이라면 데이터가 회사 밖으로 나가지 않는다는 점이 큰 장점입니다. 인터넷 연결 없이 오프라인으로 쓸 수도 있습니다.

업무에 맞게 직접 조정

가중치가 공개돼 있으니 내 용도에 맞게 미세 조정(fine-tuning)할 수 있습니다. 구글 코랩이나 자체 GPU에서 학습시켜 특정 업무에 특화된 모델로 바꿀 수 있습니다.

제품화와 상업적 활용 가능

Apache 2.0 라이선스로 공개되어, 월 사용자 수 제한이나 별도 허가, 까다로운 약관 없이 상업적으로 쓸 수 있습니다. 덕분에 고객 서비스나 내부 업무 자동화, 온프레미스 솔루션 등에 넣어 제품화할 수 있다는 큰 장점이 있습니다.

목적과 환경에 맞는 다양한 선택지

Gemma 4는 E2B, E4B, 12B, 26B A4B, 31B처럼 여러 크기로 출시되어 사용자의 환경에 맞게 선택할 수 있습니다. 목적과 하드웨어에 따라 모델을 선택하면 더 효율적으로 활용할 수 있습니다.

Gemma 4는 어떤 기능을 제공할까

Gemma 4는 어떤 기능을 제공하는지 정리했습니다.

온디바이스와 오프라인 실행

Gemma 4는 개발 과정에서 픽셀 팀, 퀄컴, 미디어텍 등과 협력해 E2B와 E4B가 기기 안에서도 빠르게 작동하도록 최적화되었습니다. 덕분에 작은 모델들을 스마트폰, 라즈베리파이, 엣지 기기에서 실행할 수 있습니다.

또한 인터넷 연결 없이 오프라인으로도 사용할 수 있어, 외부 서버로 데이터를 보내기 어려운 환경에서도 활용하기 좋습니다.

멀티모달 입력

Gemma 4는 텍스트 중심의 채팅 모델을 넘어 이미지와 영상까지 다룰 수 있는 멀티모달 기능을 제공합니다. 모든 모델은 텍스트와 이미지를 한 프롬프트 안에서 함께 처리할 수 있고, 영상은 프레임 단위로 나누어 분석할 수 있습니다.

이미지 처리에서는 객체 인식, 문서·PDF 분석, 화면·UI 이해, 차트 해석, 다국어 OCR, 손글씨 인식 같은 작업을 지원하고, 여기에 E2B, E4B, 12B 모델은 오디오 입력도 지원해 음성을 텍스트로 변환하거나 다른 언어로 번역하는 작업까지 처리할 수 있습니다.

추론과 에이전트 기능

Gemma 4의 모든 모델은 추론 모드(thinking)와 구조화된 도구 사용(function calling)을 모두 지원합니다. 추론 모드를 통해 복잡한 문제를 단계적으로 풀어갈 수 있고, function calling을 통해 외부 도구나 API와 연결할 수 있습니다. 이를 활용해 실제 작업을 수행하는 AI 에이전트를 만들 수 있습니다.

긴 맥락과 다국어 지원

Gemma 4는 128K부터 최대 256K의 콘테스트 소화력을 갖추고 있습니다.덕분에 긴 보고서, PDF, 코드베이스처럼 분량이 큰 자료를 넣고 요약하거나 분석할 수 있습니다.

또한 140개 이상 언어 데이터로 학습되어, 영어뿐 아니라 여러 언어가 섞인 문서나 글로벌 서비스에도 유용하게 활용할 수 있습니다.

Gemma 4의 모델 별 성능차이

모델	파라미터 수	기본 설치 용량	컨텍스트	주요 특징	터미널 실행 명령어
Gemma 4 E2B	유효 2.3B, 전체 5.1B	약 7.2GB	128K	빠른 대화, 간단한 요약·분류	ollama run gemma4:e2b
Gemma 4 E4B	유효 4.5B, 전체 8B	약 9.6GB	128K	속도와 기본 성능의 균형	ollama run gemma4:e4b
Gemma 4 12B	약 11.95B	약 7.6GB	256K	문서 작성, 분석, 코딩, 이미지 이해	ollama run gemma4:12b
Gemma 4 26B A4B	전체 25.2B, 활성 3.8B	약 18GB	256K	MoE 구조, 복잡한 추론과 에이전트 작업	ollama run gemma4:26b
Gemma 4 31B	약 30.7B	약 20GB	256K	가장 큰 Dense 모델, 높은 전반적 성능	ollama run gemma4:31b

Gemma 4 설치 및 실행 방법

Gemma 4는 다양한 방식으로 사용할 수 있지만, 처음 시작하는 사용자라면 로컬에서 실행할 수 있는 데스크톱 앱을 활용하는 방법이 가장 접근하기 쉽습니다.

이번 글에서는 Gemma 4를 내 컴퓨터에 설치해 사용할 수 있는 대표적인 방법인 Ollama 사용법을 중심으로 살펴보겠습니다.

Ollama에서 사용하는 방법

Ollama는 여러 오픈 AI 모델을 로컬에서 실행할 수 있는 프로그램입니다. Llama, Qwen, Gemma 등 다양한 모델을 내려받아 사용할 수 있으며, Gemma 4도 지원합니다. .

Gemma 4를 사용하기 위해 Ollama 홈페이지에서 Ollama를 설치해야합니다.

* 이미지 출처: Ollama 메인 홈페이지

Windows에서는 Ollama 공식 홈페이지에서 OllamaSetup.exe를 내려받거나 PowerShell에 설치 명령어를 입력해 설치할 수 있습니다.

두 방법 모두 필요한 실행 파일을 함께 설치하지만, 처음 사용하는 경우에는 설치 과정을 화면에서 확인할 수 있는 공식 설치 프로그램을 이용하는 편이 간편합니다.

Ollama를 처음 실행하면 타 ai 모델과 연결하는 화면이 나옵니다.

Ollama를 처음 실행하면 위와 같이 Launch 화면이 표시될 수 있습니다. 이 화면은 Gemma 4 같은 모델과 대화하는 곳이 아니라, Claude Code나 Codex 같은 외부 AI 도구를 Ollama와 연결하는 메뉴입니다. 일반 채팅을 하려면 왼쪽의 New Chat을 선택한 뒤 사용할 모델을 고르면 됩니다.

채팅창 하단의 프롬프트 입력란 오른쪽에서 사용할 모델을 선택할 수 있습니다. 모델명 옆의 구름 아이콘은 모델을 PC에 설치하지 않고 클라우드에서 실행하는 방식을, 아래쪽 화살표 아이콘은 모델을 내 컴퓨터에 내려받아 로컬에서 실행하는 방식을 의미합니다.

설치한 모델 목록에서 gemma4:12b를 클릭합니다. 목록에 없다면 검색창에서 모델명을 검색해 먼저 설치해야 합니다.

모델 세팅이 제대로 완료되면 Gemma 4를 사용할 수 있습니다.

모델 세팅이 제대로 완료되면 Gemma 4를 사용할 수 있습니다. 다만 Ollama에서 실행하는 Gemma4는 다른 AI 보다 느리게 작동하는 경향이 있어, 더 빠르게 사용하고 싶다면 LM Studio나 다른 로컬 앱에서 연동해야 합니다.

컨텍스트 조절 방법

Ollama에서 Gemma 4를 사용할 때 컨텍스트 조절 방법을 설명했습니다. Ollama 설정에서는 로컬 모델이 한 번에 참고할 수 있는 컨텍스트 길이를 조절할 수 있습니다.

Gemma 4는 모델에 따라 E2B·E4B는 최대 128K, 12B·26B A4B·31B는 최대 256K 컨텍스트를 지원합니다.

다만 컨텍스트를 크게 설정할수록 GPU 메모리와 시스템 RAM 사용량이 늘고 응답 속도가 느려질 수 있으므로, PC 사양과 작업 범위에 맞게 조절하는 것이 좋습니다.

용도	권장 컨텍스트
일반 대화·글 작성	8K~16K
긴 원고·여러 문서 분석	32K
코딩·에이전트 테스트	64K
매우 긴 문서 전체 분석	128K부터 시험
256K	기술적으로 가능하지만 비추천

따라서 평소에는 16K 또는 32K로 사용하고, 긴 프로젝트나 에이전트 작업이 필요할 때만 64K로 높이는 편이 좋습니다. OpenCode나 OpenClaw 같은 에이전트는 64K 이상의 컨텍스트를 권장합니다.

Gemma 4, 로컬 AI의 장점을 이렇게 활용해보세요

1. 내부 자료만 사용하는 사내 전용 지식 검색기

회사 내부 문서나 고객 자료는 클라우드 AI에 그대로 입력하기 부담스러울 수 있습니다. 이럴 때 Gemma 4를 로컬에서 실행하고 PDF, DOCX, TXT 같은 파일을 연결하면, 내 PC나 회사 서버에 저장된 자료만 참고해 아래와 같이 답변하는 전용 지식 검색기를 구성할 수 있습니다.

LM Studio에서는 문서를 채팅에 첨부하거나 RAG 방식으로 검색할 수 있습니다. 문서 처리 과정과 대화 내용을 로컬 환경 안에서 다룰 수 있다는 점도 장점입니다.

특히 의료광고 가이드라인, 고객사 보고서, 내부 매뉴얼처럼 외부 클라우드에 올리기 부담스러운 자료를 PC 안에서 검색하고 분석할 때 유용합니다.

2. 원고와 파일을 한꺼번에 처리하는 배치 작업기

Gemma 4를 로컬 API와 연결하면 여러 문서를 하나씩 채팅창에 올리지 않고, 폴더 안의 파일을 한꺼번에 처리할 수 있습니다. 예를 들어 블로그 원고 100개에서 금칙어를 찾거나, 제목과 메타 설명을 만들고, 문서별 핵심 키워드와 검수 결과를 표로 정리하도록 자동화할 수 있습니다.

Ollama와 LM Studio는 로컬 API 서버를 제공하므로 Python이나 자동화 프로그램에서 Gemma 4를 반복 호출할 수 있습니다. 처리할 파일이 많아져도 호출할 때마다 별도의 API 사용료가 발생하지 않아, 대량의 원고를 분류·요약·검수하는 업무에 활용하기 좋습니다.

3. 파일과 프로그램을 다루는 업무용 에이전트

Gemma 4는 함수 호출을 지원하기 때문에 단순히 답변을 작성하는 데서 그치지 않고, 외부 도구와 연결해 다음 행동을 결정하는 에이전트로 활용할 수 있습니다.

개발 업무에서는 프로젝트의 소스 코드와 오류 로그를 분석해 관련 파일을 찾고, 수정안을 작성한 뒤 테스트 명령까지 실행하는 에이전트로 구성할 수 있습니다.

또한 여러 파일의 코드 형식을 통일하거나, 단위 테스트와 API 문서를 만들고, 라이브러리 버전 변경에 영향을 받는 부분을 정리하는 반복 작업에도 활용할 수 있습니다. 다만 코드 수정과 명령 실행은 결과를 검토한 뒤 승인하도록 설정하는 것이 좋습니다.

Gemma 4를 사용할 때 주의할 점

1. 모델 크기보다 실제 메모리 사용량을 먼저 확인하세요

Gemma 4는 모델 크기와 양자화 방식에 따라 필요한 GPU 메모리가 크게 달라집니다. 이 수치는 모델 가중치를 불러오는 데 필요한 용량으로, 긴 문서를 입력하면 컨텍스트 처리를 위한 메모리가 추가로 사용됩니다.

PC 사양에 비해 큰 모델이나 지나치게 긴 컨텍스트를 설정하면 응답이 느려지거나 일부 작업이 CPU로 넘어갈 수 있습니다. 처음에는 4비트 양자화 모델과 적당한 컨텍스트 길이로 시작하는 것이 좋습니다.

2. 생성된 답변과 코드는 반드시 검토하세요

Gemma 4도 사실과 다른 내용을 자연스럽게 만들어낼 수 있습니다. Google의 모델 카드에서도 학습 데이터의 편향이나 정보 공백이 답변에 영향을 줄 수 있으며, 복잡하고 개방적인 작업에서는 성능이 떨어질 수 있다고 설명합니다. 따라서 의료·법률·금융 정보, 최신 사실, 통계 수치, 출처가 필요한 내용은 별도로 확인해야 합니다. 개발 업무에서도 생성된 코드를 바로 운영 환경에 적용하지 말고 테스트와 코드 리뷰를 거치는 것이 필요합니다.

3. 에이전트에는 처음부터 넓은 권한을 주지 마세요

Gemma 4는 함수 호출을 지원하지만 외부 프로그램이 모델의 요청을 받아 실제 작업을 실행하는 구조입니다. 잘못된 판단이 파일 삭제, 명령 실행, 데이터 변경으로 이어질 수 있으므로 처음에는 읽기 권한만 제공하고, 수정·삭제·배포 작업에는 사용자 승인 단계를 두는 것이 좋습니다. Google도 함수 호출로 생성한 코드를 실행하기 전에 반드시 검증 장치를 마련하도록 명시하고 있습니다.