온디바이스-AI

한 줄 요약: 로컬 LLM과 에이전트 인프라는 클라우드 비용보다 데이터 경계, GPU 토폴로지, 장애 격리, 모델 교체 비용을 먼저 봐야 한다. 내 장비에서 돈다는 사실보다, 실패했을 때 어디까지 영향을 주는지가 설계의 핵심이다. 왜 지금 이슈인가 로컬 LLM을 직접 돌리려는 움직임이 다시 커진 이유는 GPU 성능만으로 설명하기 어렵다. hosted API가 편하다는 점은 그대로다. 다만 에이전트가 코드, 문서, 검색, 메신저, 사내 저장소까지 다루기 시작하면서 데이터 경계가 전보다 훨씬 애매해졌다. Jamesob의 로컬 LLM 가이드는 이 긴장을 꽤 직접적으로 보여준다. 약 2천 달러 구성에서는 RTX 3090 두 장과 48GB VRAM으로 Qwen 계열 모델과 Whisper 기반 음성 인식(STT)을 돌린다. 약 4만 달러급 구성에서는 RTX PRO 6000 네 장, 총 384GB VRAM으로 더 큰 모델을 서빙한다. 정작 눈에 띄는 것은 모델 이름보다 주변 구성이다. PCIe 스위치, NCCL, ACS, IOMMU, 전력 제한, Docker, 내부 DNS, 샌드박스 VM, Gitea, 검색 도구가 함께 나온다. ...