글
Ollama VRAM 부족 에러 해결법 총정리 – GPU 메모리 관리 꿀팁
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
Ollama로 로컬 LLM을 돌리다가 갑자기 GPU 메모리 부족 에러가 뜬다면? VRAM 부족(Out of Memory) 문제의 원인부터 모델별 필요 용량, 그리고 실질적인 할당량 조절 팁까지 한 번에 정리해드릴게요. 저도 처음 Ollama를 설치하고 신나는 마음으로 Llama 3 70B 모델을 돌려봤는데, 터미널에 빨간 글씨로 "out of memory" 가 딱 뜨더라고요. 뭐가 문제인지도 모른 채 한참을 헤맸던 기억이 나요. 😅 사실 이 에러는 GPU의 VRAM이 모델을 올리기에 부족할 때 발생하는 건데요, 원인을 알고 나면 생각보다 간단하게 해결할 수 있어요. 오늘은 제가 직접 겪으면서 알게 된 VRAM 관리 노하우를 공유해볼게요! GPU VRAM, 정확히 뭔가요? 🤔 VRAM은 Video RAM 의 줄임말로, 그래픽카드에 탑재된 전용 메모리예요. 일반 시스템 RAM과는 다르게 GPU가 직접 접근해서 사용하는 메모리인데요, LLM을 로컬에서 돌릴 때는 모델의 가중치(weight)가 통째로 이 VRAM 위에 올라가야 해요. 쉽게 말하면, VRAM 크기 = 내 GPU가 한 번에 올릴 수 있는 모델의 한계 라고 보시면 돼요. RTX 3060이면 12GB, RTX 4090이면 24GB 정도가 기본이죠. 💡 알아두세요! 시스템 RAM이 32GB여도 GPU VRAM이 8GB라면, LLM 구동 시 기준이 되는 건 8GB예요. 두 메모리는 완전히 별개의 공간이에요. OOM 에러, 왜 발생하나요? 📊 Out of Memory 에러가 발생하는 주된 원인은 크게 세 가지예요. 모델 크기 초과 — 7B, 13B, 70B 등 파라미터 수가 클수록 VRAM을 많이 먹어요. 양자화(quantization) 없이 70B 모델을 올리려면...
MCP vs Function Calling vs RAG — AI 연동 방식 완전 비교 & 선택 기준 총정리
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
MCP가 좋다고는 하는데… 기존 방식과 정확히 뭐가 다른 건가요? Function Calling, Plugin, RAG — 이미 있던 방법들과 MCP는 어떻게 다르고, 언제 어떤 걸 써야 할까요? 개념부터 실질적인 선택 기준까지, 이번 글에서 한 번에 정리해 드릴게요! 이 시리즈를 쭉 읽어오신 분들이라면 이런 생각이 드셨을 거예요. "MCP, MCP 하는데… 원래 AI랑 외부 서비스 연결하는 방법이 없었던 것도 아니잖아?" 맞아요. Function Calling도 있었고, ChatGPT Plugin도 있었고, RAG도 있었어요. 저도 처음엔 "이게 그냥 리브랜딩 아닌가?" 싶었거든요. 😅 그런데 파고들수록 MCP가 단순한 마케팅 용어가 아니라는 게 보이더라고요. 기존 방식들이 해결하지 못한 진짜 문제를 건드리고 있었어요. 오늘은 각 방식의 개념을 짚어보고, 솔직하게 비교해서, 결국 어떤 상황에 무엇을 써야 하는지 명확한 선택 기준을 드릴게요! 🔍 기존 4가지 방식 — 각각 뭔가요? 🤔 MCP와 비교하기 전에 기존 방식들이 정확히 어떤 개념인지 간략하게 짚고 넘어갈게요. 용어가 낯설어도 개념은 생각보다 간단해요. ① Function Calling (함수 호출) AI 모델에게 "이런 함수들이 있어, 필요하면 호출해"라고 알려주는 방식이에요. OpenAI GPT, Anthropic Claude 모두 지원해요. AI가 대화 중 적절한 타이밍에 외부 함수를 호출해 결과를 받아 응답에 반영해요. 각 AI 제공사마다 구현 방식이 달라서 특정 모델에 종속 된다는 한계가 있어요. ② ChatGPT Plugin (플러그인) OpenAI가 2023년에 선보였다가 2024년에 사실상 종료한 방식이에요. 웹 서비스처럼 만든 API 엔드포인트를 ChatGPT에 연결해 쓰는 구조였어요. 원리는 좋았지만 C...
Slack·Gmail·Calendar를 하나로 — MCP로 만드는 나만의 AI 비서 완전 가이드
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
Slack 확인하고, Gmail 열고, 캘린더 보고… 하루가 앱 전환으로 다 가지 않나요? Slack·Gmail·Google Calendar MCP 서버를 Claude에 동시에 연결하면 세 앱을 하나처럼 쓸 수 있는 나만의 AI 비서가 완성돼요. 메시지 요약부터 이메일 초안, 일정 관리까지 — 지금 바로 시작해 봐요! 하루에 얼마나 많은 앱을 오가며 일하고 계세요? 저는 한번 세어봤다가 좀 충격받았어요. Slack에서 메시지 확인하고, Gmail로 이메일 답장하고, 구글 캘린더 열어서 오늘 일정 확인하고, 다시 Slack으로 돌아와서… 이 루프가 하루에 몇 번씩 반복되더라고요. 😅 실제로 생산성 연구에서 앱 전환이 집중력을 깨뜨리는 주요 원인으로 꼽힌다고 하는데, 제 경험이랑 딱 맞아떨어지더라고요. 그런데 이 세 가지 앱의 MCP 서버를 Claude Desktop에 동시에 연결하고 나서는 패턴이 확 달라졌어요. "오늘 오전 Slack 메시지 요약해줘", "이 스레드 읽고 답장 초안 잡아줘", "내일 회의 일정 정리해줘" 같은 걸 Claude 하나에 말하면 끝나니까요. 오늘은 그 세팅 방법과 실전 활용법을 아낌없이 공유해 드릴게요! 🤖 AI 비서의 구조 — 3종 MCP 세트 개요 🗺️ 본격적인 설정 전에, 우리가 만들려는 AI 비서의 전체 구조를 먼저 그려볼게요. 세 MCP 서버를 동시에 연결하면 Claude는 각 서비스의 데이터를 넘나들며 하나로 묶어서 처리할 수 있게 돼요. 3종 MCP 세트 역할 비교 MCP 서버 주요 역할 대표 활용 난이도 Slack MCP 채널·메시지 읽기 / 전송 메시지 요약, 스레드 분석 ⭐⭐ ...