Gemma 4 인터넷 검색 붙이기: Exa AI와 Open WebUI로 로컬 AI 한계 넘는 법

Gemma 4를 로컬에서 구동하면 처리 속도가 빠르고 사생활 보호에 탁월하지만, 최신 웹 정보가 필요한 질문 앞에서는 한계가 여실히 드러납니다.

이 문서는 Gemma 4에 인터넷 검색 기능을 연동하는 완벽 가이드이며, 설치가 먼저 필요하신 분은 아래 글을 먼저 참고해 주세요. – RTX 5080으로 Gemma 4 26B 직접 돌려봤습니다 솔직 후기!

이 가이드는 로컬 LLM의 정보 단절 한계를 극복하기 위해, Open WebUI에 Exa AI 웹 검색을 붙여 Gemma 4가 실시간 검색 결과를 참고해 답변하도록 설정하는 방법입니다.

저는 이번 테스트에서 gemma4:26b-a4b-it-q4_K_M 양자화 버전을 사용했습니다.

물론 gemma4:26b 일반 모델에서도 동일하게 사용할 수 있지만, 메모리 부담이 훨씬 클 수 있다는 점을 고려해야 합니다.

설정이 모두 완료되면 아래 화면처럼 Open WebUI 안에서 Gemma 4 모델을 선택하고, 채팅창의 Web Search를 켠 뒤 최신 정보를 마음껏 물어볼 수 있습니다.

Gemma 4 양자화 모델이 Exa AI 검색 결과를 바탕으로 답변을 생성한 Open WebUI 화면

Gemma 4에 Exa AI를 붙이면 무엇이 달라지나요?

Gemma 4에 Exa AI를 연동한다는 말이, 모델 자체가 인터넷에 직접 접속하는 모델로 변한다는 뜻은 아닙니다.

정확히는 Open WebUI가 Exa API를 통해 웹 검색을 먼저 실행하고, Gemma 4가 그 검색 결과를 읽어 들인 뒤 보기 좋게 답변을 생성하는 구조입니다.

이전 Gemma 4 리뷰에서 확인했듯, 로컬 모델 단독으로는 최신 뉴스나 실시간 웹 정보를 확인할 수 없어 그럴듯한 오답(할루시네이션)을 만들어내는 한계가 있었습니다.

이번 설정은 바로 그 치명적인 약점을 완벽하게 보완하는 후속 작업입니다.

최신 정보가 필요한 질문을 던질 때 검색 결과와 출처 후보를 모델에 함께 넘겨주는 방식이므로, 로컬 LLM을 실무 자료 조사용으로 훨씬 더 강력하게 사용할 수 있습니다.

구분	역할	확인할 점
Gemma 4	검색 결과를 분석하고 한국어 답변을 깔끔하게 정리하는 로컬 모델	모델 크기와 양자화 수준에 따라 속도와 품질이 달라집니다.
Open WebUI	Ollama 모델을 편리한 웹 채팅 화면에서 쓸 수 있게 해주는 인터페이스	반드시 Web Search 기능을 활성화해야 합니다.
Exa AI	웹 검색 결과와 페이지 본문 내용을 가져오는 강력한 검색 API	무료 크레딧 소진 후에는 종량제 비용이 발생할 수 있습니다.
Docker Desktop	Open WebUI를 컨테이너로 안정적으로 실행하는 기반 시스템	Windows 환경에서는 WSL 2와 가상화 설정을 최우선으로 점검해야 합니다.

1. 시작 전 필수 준비물 확인하기

Windows 환경에서 이 시스템을 꼬임 없이 한 번에 구축하려면 Docker Desktop, Ollama, Gemma 4 모델, Exa API 키 발급이 모두 준비되어 있어야 합니다.

가장 먼저, 작업 표시줄의 Windows 검색창에서 ‘Windows 기능 켜기 또는 끄기’ 메뉴를 찾아 실행합니다.

Windows 검색에서 Windows 기능 켜기 또는 끄기 메뉴를 찾는 화면

그다음 작업 관리자를 열고 성능 탭으로 이동하여 ‘가상화’가 ‘사용’ 상태인지 확인하세요.

만약 가상화가 꺼져 있다면 프로그램 문제가 아니라 PC 메인보드의 BIOS나 UEFI 설정이 원인일 가능성이 큽니다.

이 경우 사용 중인 메인보드 제조사 이름과 ‘가상화 켜는 법’을 검색하여 BIOS에서 직접 기능을 활성화해야 합니다.

가상화가 켜져 있다면, ‘Windows 기능’ 창에서 ‘Hyper-V’와 ‘Linux용 Windows 하위 시스템(WSL)’ 항목을 찾아 체크합니다.

Windows 기능에서 Hyper-V와 Linux용 Windows 하위 시스템을 켠 화면

추가로 ‘Windows 하이퍼바이저 플랫폼’과 ‘가상 머신 플랫폼’도 함께 체크해 두면, 향후 Docker Desktop이 WSL 2 기반으로 실행될 때 오류가 발생할 확률을 크게 낮출 수 있습니다.

Windows 기능에서 Windows 하이퍼바이저 플랫폼과 가상 머신 플랫폼을 켠 화면

항목	왜 필요한가요?	확인할 것
하드웨어 가상화	WSL 2와 Docker 컨테이너를 구동하는 데 필수적입니다.	작업 관리자에서 가상화 사용 여부를 확인합니다.
WSL 2	Windows 환경에서 Linux 기반 컨테이너를 빠르고 안정적으로 실행하게 돕습니다.	Docker 설치 중 WSL 2 옵션이 선택되어 있는지 봅니다.
Ollama	Gemma 4 모델을 로컬 환경에서 직접 실행하는 엔진입니다.	Open WebUI 접속 시 모델 목록이 안 보인다면 반드시 Ollama 실행 여부를 체크하세요.
Exa API 키	Open WebUI의 핵심 Web Search 공급자로 Exa 서비스를 연결합니다.	API 키 정보가 외부 이미지나 텍스트 문서에 유출되지 않도록 철저히 보안을 유지하세요.

2. Docker Desktop 설치 및 실행 상태 점검하기

Docker Desktop 다운로드 공식 페이지에 접속하여 Windows용 AMD64 설치 파일을 내려받습니다.

만약 최신 Windows ARM 장비를 사용 중이라면 ARM64 버전을 선택해야 하지만, 일반적인 데스크톱과 대부분의 노트북은 AMD64 버전이 맞습니다.

Docker Desktop 다운로드 메뉴에서 Windows AMD64 설치 파일을 선택하는 화면

설치 과정 중 나타나는 옵션 화면에서는 반드시 ‘WSL 2 사용’ 옵션이 체크된 상태로 진행해 주세요.

참고로 Docker Desktop 공식 문서는 원활한 작동을 위해 Windows 10 22H2 또는 Windows 11 23H2 이상 버전, WSL 2 환경, 8GB 이상의 RAM, 그리고 BIOS 가상화 활성화를 필수 요구사항으로 명시하고 있습니다.

Docker Desktop 설치 중 WSL 2 사용 옵션을 선택하는 화면

설치 완료 후 첫 실행 시 나오는 약관 화면에서는 Docker Desktop의 무료 사용 조건을 꼼꼼히 확인해 볼 필요가 있습니다.

공식 규정에 따르면 개인 사용자, 교육 목적, 비상업적 오픈소스 개발자, 그리고 직원 250명 미만에 연 매출 1,000만 달러 미만인 소규모 사업자는 무료로 사용할 수 있습니다.

해당 범위를 초과하는 기업 규모의 상업적 목적이라면, 반드시 Docker Desktop 유료 구독 플랜을 검토해야 합니다.

Docker Desktop Subscription Service Agreement에서 Accept 버튼을 확인하는 화면

앱이 실행되고 나타나는 로그인 화면은, 필수적인 업무용 연동이 아니라면 우측 하단의 Skip 버튼을 눌러 가볍게 건너뛰어도 무방합니다.

Docker Desktop 시작 화면에서 로그인 단계를 건너뛰는 위치를 보여주는 화면

모든 초기 설정이 끝나고 Docker Desktop이 정상적으로 실행되면 빈 Containers 화면이 나타납니다.

우리는 아직 Open WebUI 컨테이너를 생성하기 전이므로, 현재 목록에 아무것도 뜨지 않는 것이 정상입니다.

3. 검색 엔진의 핵심, Exa API 키 발급받기

Exa는 AI 애플리케이션에 최적화된 차세대 검색 API입니다.
최근 Google Cloud와의 전략적 파트너십을 체결할 만큼 성능과 신뢰성을 인정받은 매우 훌륭한 서비스입니다.

본 가이드에서는 가입 즉시 20달러 상당의 무료 크레딧을 넉넉히 제공하는 Exa를 기준으로 설명하지만, 평소 선호하는 다른 검색 API가 있다면 그것을 활용하셔도 무방합니다.

현재 공식 요금 정책에 따르면 신규 가입자는 무료 크레딧으로 충분한 테스트를 진행할 수 있으며, 크레딧 소진 이후부터는 검색 요청 횟수와 데이터 크기에 따른 종량제 방식으로 과금됩니다.

가벼운 테스트 목적이라면 복잡한 결제 정보 입력 없이 Exa 홈페이지 메인에 있는 ‘Try API for free’ 버튼을 눌러 시작하면 됩니다.

Exa 설정 프롬프트에서 MCP와 Web search tool 옵션을 선택한 화면

가입 직후 묻는 사용 목적 설문은 API 키 발급에 아무런 영향을 주지 않으므로, 편하게 적당한 항목을 선택한 뒤 ‘Generate Key’를 눌러 키를 발급받으세요.

API 키 복사까지 완료되었다면 핵심 준비는 모두 끝났습니다. 이제 발급된 키를 나중에 사용할 수 있도록 Exa 창을 잠시 내려두시면 됩니다.

4. Open WebUI를 Docker 컨테이너로 설치하기

현재 PC에서 Ollama가 켜져 있는 상태라면, Open WebUI 공식 문서에서 제공하는 한 줄짜리 Docker 설치 명령어를 사용하는 것이 가장 빠르고 안전합니다.

관리자 권한으로 Windows PowerShell을 실행한 뒤, 아래의 명령어를 복사해 붙여넣고 ENTER 키를 눌러주세요.

docker run -d -p 3000:8080 `
  --add-host=host.docker.internal:host-gateway `
  -v open-webui:/app/backend/data `
  --name open-webui --restart always `
  ghcr.io/open-webui/open-webui:main

명령어 구조를 간단히 설명하자면, -p 3000:8080은 우리가 브라우저에서 localhost:3000으로 쉽게 접속하도록 연결해 주고, -v 옵션은 추후 컨테이너가 업데이트되어도 기존 대화 기록이 날아가지 않도록 데이터를 영구 보존해 줍니다.
또한 --add-host 옵션은 고립된 환경인 Docker 컨테이너가 내 PC에서 실행 중인 Ollama 엔진에 정상적으로 접근할 수 있도록 연결 통로를 열어주는 필수 핵심 설정입니다.

PowerShell에 Open WebUI Docker 실행 명령어를 입력한 화면

명령어를 실행하면 곧바로 Docker가 백그라운드에서 최신 Open WebUI 시스템 이미지를 다운로드하기 시작합니다.

이 다운로드 과정은 사용자의 인터넷 속도와 PC 성능에 따라 수 분 정도 걸릴 수 있으니, 터미널 창이 멈춘 것처럼 보여도 안심하고 기다려 주세요.

PowerShell에서 Open WebUI Docker 이미지가 다운로드되는 화면

모든 다운로드가 완료되고 터미널 창에 긴 문자열(컨테이너 ID)이 출력되었다면, Open WebUI 컨테이너가 성공적으로 생성 및 실행된 것입니다.

Open WebUI Docker 이미지 다운로드와 컨테이너 생성이 완료된 PowerShell 화면

혹시 모르니 PowerShell에 docker ps 명령어를 입력하여 실행 상태를 한 번 더 체크해 봅니다.

docker ps

PowerShell에 docker ps 명령어를 입력해 컨테이너 상태를 확인하는 화면

출력된 목록에 open-webui가 당당히 떠 있고, 포트 번호에 3000->8080/tcp 매핑이 정상적으로 보인다면 모든 접속 준비가 완벽히 끝난 상태입니다.

docker ps 결과에서 open-webui 컨테이너와 3000 포트 매핑을 확인하는 화면

이제 평소 사용하는 크롬이나 엣지 브라우저를 열고 주소창에 http://localhost:3000을 입력하여 접속해 봅니다.

깔끔한 Open WebUI의 환영 화면이 나타나면, 중앙의 ‘Get started’ 버튼을 눌러 가장 먼저 초기 관리자 계정을 생성해 줍니다.

Open WebUI 첫 화면에서 Get started 버튼을 누르는 화면

5. 관리자 계정 생성 및 구동 모델 연동 확인

본인이 사용할 닉네임과 비밀번호를 입력하여 관리자 권한을 가진 첫 계정을 만들고 곧바로 로그인합니다.

메인 대화창에 진입하면 화면 좌측 상단에는 채팅 메뉴가, 중앙 상단의 모델 선택창에는 현재 내 PC의 Ollama에서 불러올 수 있는 Gemma 4 모델 리스트가 표시됩니다.

만약 상단 드롭다운에 모델 목록이 전혀 뜨지 않는다면 당황하지 말고, 작업 표시줄 트레이 아이콘을 확인해 Ollama가 제대로 실행되고 있는지부터 점검하세요.

6. 관리자 패널(Admin Panel)에서 Exa 엔진 연동하기

설정 연동을 위해 화면 우측 상단의 내 프로필 아이콘을 클릭하고, 톱니바퀴 모양의 ‘Admin Panel’ 메뉴로 들어갑니다.

Open WebUI 프로필 메뉴에서 Admin Panel을 선택하는 화면

관리자 패널 상단의 ‘Settings’ 탭을 누른 후, 좌측 사이드바 메뉴에서 ‘Web Search’ 항목을 클릭합니다.

주의할 점은, 제일 상단에 있는 ‘Enable Web Search’ 토글은 메인 스위치 역할을 하므로 반드시 켜두어야 하며, 켜지 않은 상태로 검색 엔진만 고르면 실제 채팅창에서 기능이 전혀 작동하지 않습니다.

Open WebUI Admin Panel에서 Settings와 Web Search 메뉴를 선택하는 화면

기능을 활성화했다면, 바로 아래의 ‘Web Search Engine’ 드롭다운 메뉴를 열어 기본 설정된 검색 엔진 대신 ‘Exa’를 선택해 줍니다.

참고로 Open WebUI는 업데이트가 매우 빠른 오픈소스이므로, 설치 버전에 따라 이 설정 메뉴들의 이름이나 위치가 사진과 아주 미세하게 다를 수도 있습니다.

Open WebUI Web Search Engine 목록에서 Exa를 선택하는 화면

엔진을 Exa로 변경하면 곧바로 API Key를 입력할 수 있는 텍스트 박스와 세부 검색 옵션값들이 화면에 나타납니다.

앞선 3번 단계에서 발급받아 복사해 두었던 Exa API 키를 정확히 붙여넣고, 하단의 검색 결과 개수(Search Result Count)와 동시 요청 수(Concurrent Requests)를 적절히 조절합니다.

Open WebUI Web Search 설정에서 Exa API 키와 검색 결과 개수, 동시 요청 수를 입력한 화면

설정	의미	처음 추천값
Search Result Count	AI가 한 번 질문을 받을 때 긁어올 웹사이트의 총 개수입니다.	처음에는 3~5개로 가볍게 시작하고, 더 깊은 자료 조사가 필요할 때만 숫자를 늘리세요.
Concurrent Requests	웹 검색 시 백그라운드에서 동시에 처리할 병렬 요청 개수입니다.	이 역시 3~5로 설정하되, 타임아웃 오류가 잦다면 PC 네트워크 부하를 줄이기 위해 1~2로 낮추세요.
Fetch URL Content Length Limit	접속한 웹사이트 하나당 분석할 텍스트의 최대 길이 제한값입니다.	기본값이나 No limit(무제한)으로 두어 퀄리티를 확인한 뒤, 답변 생성 속도가 너무 느려지면 적당한 수치로 제한을 두는 것이 좋습니다.
Bypass Embedding and Retrieval	검색된 텍스트를 벡터로 변환하여 보강하는 RAG 단계를 강제로 우회하는 옵션입니다.	일반적으로는 비활성화(OFF) 상태가 더 똑똑하게 답변하며, 검색 구조가 자꾸 꼬일 때만 켜서 차이를 테스트해 보세요.
Bypass Web Loader	웹페이지의 복잡한 본문 요소 로딩을 스킵하여 속도를 강제로 끌어올리는 옵션입니다.	상세하고 정확도 높은 답변이 목적이라면, 본문 로딩을 온전히 수행하도록 이 옵션은 꺼두는 편이 좋습니다.
Trust Proxy Environment	시스템의 프록시 환경 변수를 신뢰하여 우회망 뒤에서도 웹 로더가 정상 작동하도록 허용합니다.	보안이 빡빡한 사내망이나 특정 프록시 환경에서 구동할 때만 켜서 접속 성공 여부를 테스트하세요.

모든 옵션 값을 입력했다면, 스크롤을 내려 화면 가장 아래쪽에 있는 ‘Save’ 버튼을 잊지 말고 꼭 눌러 설정을 저장해야 합니다.

Open WebUI Web Search 설정 저장 버튼 위치를 보여주는 화면

7. 실전 테스트 전 백그라운드 구동 상태 체크

아무리 브라우저에서 Open WebUI 화면이 잘 보이더라도, 그 근간이 되는 Docker Desktop 컨테이너나 Ollama 엔진 중 하나라도 백그라운드에서 꺼져 있다면 당연히 모델 호출은 실패합니다.

본격적인 웹 검색 테스트를 진행하기 전에, 우측 하단의 Windows 작업 표시줄 트레이 아이콘을 통해 두 프로그램이 모두 정상 구동 중인지 마지막으로 한 번 더 확인해 주세요.

Windows 작업 표시줄에서 Docker Desktop과 Ollama가 실행 중인지 확인하는 화면

모든 것이 정상이라면, Open WebUI 대화창 상단을 클릭해 대화 상대로 사용할 Gemma 4 모델을 선택합니다.

본 가이드에서는 효율을 위해 최적화된 양자화 버전(q4_K_M)을 선택했지만, VRAM이 충분하여 기본 무압축 모델을 설치하셨다면 해당 모델명을 그대로 선택하시면 됩니다.

그리고 채팅 입력창 좌측에 있는 작은 ‘+’ 모양의 도구 버튼을 누른 뒤, ‘Web Search’ 토글스위치를 명확하게 켜줍니다.

앞서 관리자 패널(Admin Panel)에서 메인 설정을 켰더라도, 실제 채팅창 내의 이 토글 버튼이 꺼져 있다면 AI는 웹 검색을 시도하지 않고 기존 지식만으로 대답하게 됩니다.

8. Gemma 4와 함께 최신 정보 검색 테스트하기

Gemma 4 채팅창에서 Exa AI 정보를 오늘 기준으로 검색해 달라고 요청하는 화면

최신 트렌드나 날짜 정보가 필요한 질문을 입력하고 전송하면, 답변 생성 영역 상단에 AI가 실시간으로 훑고 있는 웹사이트들의 로고와 주소가 애니메이션으로 표시됩니다.

이러한 시각적 피드백이 나타난다면, 설정해 둔 Exa API 웹 검색 기능이 완벽하게 가동되고 있다는 가장 확실한 증거입니다.

Open WebUI에서 Gemma 4가 웹 검색으로 여러 사이트를 검색한 화면

수집이 완료되면 Gemma 4는 긁어온 여러 웹페이지의 정보를 조합하여, 질문자의 의도에 맞게 매우 깔끔한 한국어로 결과를 요약해 줍니다.

하지만 아무리 뛰어난 모델이라도 정보를 요약하는 과정에서 맥락을 오해할 여지가 있으므로, 중요한 결정을 내리는 업무 자료에 활용할 때는 반드시 답변 하단에 첨부된 출처 링크를 클릭하여 원문의 뉘앙스와 정확한 발행일을 직접 크로스체크해야 합니다.

Gemma 4가 Exa AI의 주요 기능과 공식 링크를 정리한 최종 답변 화면

9. 입맛대로 조절하는 고급 추가 설정들

화면 우측 상단의 슬라이더 아이콘(컨트롤 패널)을 열어보면, Tools 활성화부터 System Prompt 적용, 모델의 온도(Temperature)를 조절하는 Advanced Params 등 세밀한 커스텀 옵션들을 만질 수 있습니다.

특히 모델의 말투를 극도로 전문적인 톤으로 고정하거나, 해외 사이트를 검색하더라도 ‘반드시 한국어로 3줄 요약할 것’이라는 식의 강제 규칙을 부여하고 싶다면 이 System Prompt 영역을 적극 활용하세요.

Open WebUI 컨트롤 패널에서 Tools와 System Prompt, Advanced Params를 확인하는 화면

물론 처음부터 이 값들을 마구잡이로 바꾸기보다는, 기본 세팅 값에서 기능이 정상 동작하는지를 먼저 체험해 본 뒤 필요에 따라 옵션들을 하나씩 조금씩만 조절해 나가는 것이 부작용을 막는 가장 안전한 방법입니다.

관리자 패널의 ‘Bypass’ 관련 고급 옵션들은 예상치 못한 충돌로 검색이 막힐 때 해결책으로 시도해 보는 용도이므로, 현재 시스템이 잘 돌아가고 있다면 굳이 건드려 시스템 변수를 늘릴 필요가 없습니다.

💡 자주 겪는 트러블슈팅과 완벽 해결법

증상	가능한 원인	먼저 할 일
localhost:3000이 열리지 않음	Docker 컨테이너가 정상적으로 실행되지 않았거나 매핑된 포트 번호가 충돌했을 가능성이 큽니다.	PowerShell에서 `docker ps`를 입력하여 open-webui 컨테이너의 상태가 ‘Up’인지, 3000 포트가 제대로 열려 있는지 확인하세요.
모델 목록에 Gemma 4가 없음	백그라운드에서 Ollama 프로그램이 꺼져 있거나, 애초에 모델 다운로드가 완료되지 않았을 수 있습니다.	Ollama를 재실행하고 터미널에서 `ollama list` 명령어를 쳐서 해당 모델이 로컬 디스크에 온전히 존재하는지 점검하세요.
Web Search 버튼이 보이지 않음	관리자 권한의 메인 스위치인 Web Search가 비활성화되어 기능 자체가 숨김 처리되었을 수 있습니다.	우측 상단 프로필 > Admin Panel > Settings > Web Search로 진입하여 최상단 토글이 켜져 있는지 확인하세요.
검색은 되는데 답변이 빈약함	검색 결과 제한 수치가 너무 낮거나, 보안상 긁어오지 못하는 폐쇄형 웹사이트만 걸렸을 수 있습니다.	관리자 패널에서 Search Result Count를 5~7 정도로 여유 있게 올리고 다시 똑같은 질문을 던져 보세요.
Exa 키 오류가 남	복사한 API 키 앞뒤에 보이지 않는 공백이 섞여 들어갔거나, 입력 후 Save 버튼을 누르지 않았을 가능성이 높습니다.	Exa 홈페이지에서 키를 다시 깔끔하게 복사해 붙여넣고 반드시 Save 버튼을 누른 뒤, 브라우저를 새로고침(F5)하여 테스트해 보세요.
검색이 느림	수집하려는 검색 결과 수(Result Count)나 병렬 처리 수(Concurrent Requests)가 현재 PC의 네트워크나 CPU 사양 대비 너무 높게 잡혀있을 수 있습니다.	부하를 줄이기 위해 이 두 수치를 각각 2~3 수준으로 낮추고 재시도하여 체감 속도를 확인하세요.

결론: 이 강력한 조합을 어디까지 신뢰해야 할까?

Gemma 4와 Exa API의 결합은 고립된 로컬 모델에 ‘최신 정보의 창’을 열어주는 훌륭한 타협안이지만, 제공하는 모든 정보의 사실관계를 100% 검증 완료해 주는 마법의 장치는 결코 아닙니다.

근본적인 원리를 보자면 Exa는 단순히 웹 문서를 긁어올 뿐이고, Open WebUI는 이를 전달하며, Gemma 4는 그 텍스트 뭉치를 사람의 언어처럼 예쁘게 요약 포장하는 역할 분담일 뿐입니다.

그렇기 때문에 실시간으로 변동되는 가격이나 정책, 그리고 오류 발생 시 치명적인 결과가 따르는 법률, 의료, 투자 정보 등은 결코 모델의 요약본만 맹신해선 안 되며, 제공된 출처 링크를 타고 들어가 공식 원문을 눈으로 직접 확인하는 습관을 들여야 합니다.

반대로 새로운 IT 기술이나 AI 툴에 대한 가벼운 시장 조사, 블로그 포스팅을 위한 아이디어 뼈대 잡기, 긴 영문 기사의 빠른 기능 요약처럼 초안 생성이 목적인 작업에서는 그 어떤 도구보다 폭발적인 생산성을 발휘합니다.

평소에는 인터넷 연결을 끊고 로컬 모델 본연의 압도적인 프라이버시 보호 이점을 맘껏 누리다가, 외부 지식이 간절히 필요한 순간에만 선택적으로 웹 검색을 스위치 켜듯 활용하는 것이 이 세팅의 진정한 가치라 할 수 있습니다.

핵심 내용 3줄 요약

Gemma 4에 검색 날개를 달아주는 방법은 핵심만 짚어보자면 Docker로 Open WebUI를 구동하고, 관리자 패널에서 검색 엔진을 Exa로 연동한 뒤, 채팅 화면에서 검색 스위치를 활성화하는 세 단계로 끝납니다.

표면적인 과정 자체는 마우스 클릭 몇 번으로 끝날 만큼 아주 단순하지만, 뼈대가 되는 Windows 가상화 옵션, Docker의 정상 실행 유무, Ollama와의 백그라운드 연결 상태, 정확한 API 키값 등 단 하나의 요소라도 어긋나면 전체 시스템이 도미노처럼 멈춰버리는 예민함도 갖고 있습니다.

따라서 구축 초기에는 무리하게 욕심내지 말고 검색 결과 수를 3~5개 수준의 최솟값으로 잡고 가볍게 테스트한 뒤, 요약의 깊이가 아쉽게 느껴질 때만 설정값들을 점진적으로 타이트하게 조여나가는 방식을 권장합니다.

만약 앞선 리뷰 글에서 체감했던 로컬 AI 특유의 고립된 답답함을 스스로의 손으로 직접 부수어 보고 싶은 열정이 있다면, 이번 가이드는 여러분의 PC를 진정한 개인용 AI 비서로 진화시키는 가장 완벽하고 현실적인 프로젝트가 될 것입니다.

에디터의 찐 사용 후기

이 가이드는 로컬 LLM 특유의 완벽한 프라이버시를 보장받으면서도, 실시간 웹 검색을 통해 정보의 최신화와 정확성까지 동시에 잡기 위해 고안했습니다. 며칠간 직접 굴려보니 마치 ‘나만의 프라이빗 퍼플렉시티(Perplexity)’를 무료로 구축한 것 같아 실무에서도 상당히 만족스럽게 사용 중입니다.

초반 세팅 과정에서 Docker와 포트 충돌 등 자잘한 허들이 있긴 했지만, 베이스 모델인 Gemma 4의 텍스트 요약 성능이 워낙 발군이라 검색해 온 수십 장의 영문 웹페이지를 한국어로 매끄럽게 번역하고 압축해 내는 품질에 적잖이 놀랐습니다.

※ 참고로 저는 **RTX 5080 GPU와 64GB RAM이 장착된 PC 환경에서 Gemma 4 27B 양자화 모델을 구동**했습니다. 검색을 지시하고 최종 한국어 답변이 출력되기까지 질문 난이도에 따라 대략 30초에서 1분 내외가 소요되었으며, 외부 유출이 꺼려지는 보안 업무나 심도 있는 아이디어 구상용 비서로는 차고 넘치는 성능을 보여주었습니다.

자주 묻는 질문

Gemma 4 자체에 인터넷 검색 기능이 생기는 건가요?

아닙니다. Gemma 4 모델 자체가 인터넷에 직접 접속하는 구조로 바뀌는 것은 아닙니다. Open WebUI가 Exa로 웹 검색을 실행하고, 그 결과를 Gemma 4가 읽어서 답변하는 방식으로 이해하면 됩니다.

Exa API 키를 넣으면 무료로 계속 쓸 수 있나요?

2026년 5월 12일 기준 Exa는 신규 사용자에게 테스트용 무료 크레딧을 제공하지만, 기본 구조는 종량제입니다. 검색 결과 수와 페이지 내용 가져오기를 많이 쓰면 크레딧이 빨리 줄 수 있으니 처음에는 작은 값으로 테스트하세요.

Search Result Count와 Concurrent Requests는 얼마로 두면 좋나요?

처음에는 Search Result Count를 3~5 정도로 두고 테스트하는 편이 좋습니다. Concurrent Requests는 동시에 처리하는 요청 수에 가깝기 때문에 개인 PC에서는 3~5부터 시작하고, 오류가 나면 낮춰서 다시 확인하세요.

Bypass Embedding and Retrieval 옵션은 켜야 하나요?

일반적인 첫 설정에서는 꺼둔 상태로 시작하는 편이 안전합니다. 검색 결과가 비어 있거나 임베딩 설정 문제로 막히는 경우에만 켜고 끈 결과를 비교하세요.

gemma4:26b 일반 모델에서도 같은 방식으로 쓸 수 있나요?

같은 Open WebUI 설정 방식으로 사용할 수 있습니다. 다만 일반 26B 모델은 양자화 버전보다 메모리 부담이 커질 수 있으니, 본인 PC의 VRAM과 RAM 여유를 먼저 확인하는 것이 좋습니다.

자료 출처

요금과 기능, 지원 범위는 수시로 바뀔 수 있으니 최신 내용은 공식 페이지 기준으로 확인해 주세요.

더많은 AI 툴 정보는 ai모아에서 확인하세요

ai모아에서 Open WebUI 상세 정보 보러가기

ai모아에서 EXA 상세 정보 보러가기

2026-05-12