개발 | gnosyslambda's log

Cloudflare Workers AI Kimi K2.5 지원: AI 에이전트 최적화

한 줄 요약 — Cloudflare Workers AI가 Kimi K2.5 같은 대형 모델 지원을 시작하며, 인프라 최적화와 프리픽스 캐싱을 통해 에이전트 실행 비용을 77%까지 절감할 수 있는 통합 플랫폼으로 진화했습니다. 대형 언어 모델이 서버리스 환경으로 들어온 이유 LLM 에이전트(Agents)를 구축할 때 가장 큰 걸림돌은 모델의 추론 능력과 인프라의 파편화입니다. 단순히 프롬프트를 던지는 것을 넘어, 상태를 유지하고(Durable Objects) 긴 작업을 수행하며(Workflows) 안전한 환경에서 코드를 실행하는(Sandbox) 일련의 과정이 필요합니다. 그동안 Cloudflare Workers AI는 가벼운 모델 위주로 서비스되어 복잡한 추론이 필요한 에이전트 구현에는 한계가 있었습니다. 이번에 공개된 Kimi K2.5는 256k의 거대한 컨텍스트 윈도우(Context Window)와 멀티턴 도구 호출(Tool Calling)을 지원하며, 이를 서버리스 환경에서 직접 실행할 수 있게 되었습니다. ...

클라우드플레어 AI 보안 출시: 섀도우 AI 탐지 및 앱 보호 방법

한 줄 요약 — 클라우드플레어(Cloudflare)가 출시한 AI Security for Apps는 기업 내부에 숨겨진 섀도우 AI를 찾아내고, 프롬프트 인젝션과 민감 데이터 유출 같은 새로운 유형의 위협을 WAF 계층에서 실시간으로 방어합니다. 왜 지금 AI 보안을 고민해야 할까 최근 사내 개발팀이나 현업 부서에서 독자적으로 AI 모델을 도입하는 속도가 보안 정책이 수립되는 속도를 훨씬 앞지르고 있습니다. 기존의 웹 애플리케이션은 정해진 규칙에 따라 동작하는 결정론적(Deterministic) 구조였기 때문에 특정 패턴을 막는 것만으로도 충분한 보안 효과를 거둘 수 있었습니다. ...

Text-to-SQL 성능 최적화: 통합 임베딩과 RAG 기반 구현 가이드

데이터 웨어하우스에 수만 개의 테이블이 쌓여 있는 환경에서 사용자의 질문을 정확한 SQL로 변환하는 작업은 단순히 LLM 성능에만 의존할 수 없는 고난도 과제입니다. 핀터레스트(Pinterest)는 10만 개가 넘는 분석 테이블과 수천 명의 사용자가 공존하는 복잡한 데이터 생태계에서 텍스트 투 SQL(Text-to-SQL)의 한계를 극복하기 위해 통합 컨텍스트-의도 임베딩(Unified Context-Intent Embeddings) 기술을 도입했습니다. 한 줄 요약 — 핀터레스트는 대규모 데이터 환경에서 정확한 SQL 생성을 위해 사용자의 질문 의도와 테이블의 구조적 문맥을 하나의 벡터 공간에 매핑하여 검색 정확도를 극대화했습니다. ...

AI 에이전트 토큰 비용 98% 절감: RFC 9457 에러 응답 최적화

AI 에이전트(AI Agents)가 웹을 탐색하며 데이터를 수집하거나 API를 호출하는 비중이 급격히 늘어나고 있습니다. 하지만 네트워크 에러나 보안 차단이 발생했을 때 에이전트가 마주하는 응답은 여전히 사람을 위한 HTML 페이지인 경우가 대부분입니다. 클라우드플레어(Cloudflare)가 최근 도입한 RFC 9457 기반의 구조화된 에러 응답은 이러한 비효율을 해결하고 토큰 비용을 98% 이상 절감하는 실질적인 대안을 제시합니다. AI 에이전트가 읽기 힘든 무거운 HTML 에러 페이지 대신 RFC 9457 표준을 따르는 가벼운 JSON과 마크다운(Markdown)을 제공하여 토큰 소모를 줄이고 에이전트의 판단 정확도를 높입니다. ...

Pingora HTTP Request Smuggling 취약점 분석 및 보안 가이드

프록시 서버와 백엔드 간의 해석 차이를 이용해 보안 통제권을 무력화하는 리퀘스트 스머글링(Request Smuggling) 취약점이 최근 Rust 기반 프레임워크인 핑고라(Pingora) OSS에서 발견되었습니다. 프록시 보안 취약점을 왜 지금 살펴봐야 할까 클라우드플레어(Cloudflare)가 Nginx를 대체하기 위해 만든 핑고라는 최근 백엔드 인프라 업계에서 가장 뜨거운 오픈소스 프로젝트 중 하나입니다. 자바나 코틀린 기반의 마이크로서비스 아키텍처를 운영하는 시니어 개발자 입장에서, 프록시 계층의 보안은 서비스 전체의 생존과 직결되는 문제입니다. 우리가 구축한 API 게이트웨이나 인그레스 프록시(Ingress Proxy)가 외부의 악의적인 요청을 잘못 해석한다면, 그 뒤에 있는 스프링 부트(Spring Boot) 서버가 아무리 견고해도 소용이 없기 때문입니다. 이번에 공개된 CVE-2026-2833, CVE-2026-2835, CVE-2026-2836 취약점은 단순한 버그를 넘어 HTTP 프로토콜을 처리하는 프록시 설계의 근본적인 어려움을 보여줍니다. ...

구글 Developer Knowledge API 및 MCP 서버: AI 에이전트 문서 검색 가이드

구글이 제공하는 공식 문서를 AI 에이전트가 실시간으로 검색하고 읽을 수 있게 해주는 Developer Knowledge API와 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 서버가 공개되었습니다. 이 도구들을 활용하면 AI가 생성하는 코드의 정확도를 높이고, 최신 SDK나 API 변경 사항을 반영하지 못해 발생하는 할루시네이션(Hallucination) 문제를 근본적으로 해결할 수 있습니다. 왜 공식 문서 API가 필요한가? 자바와 코틀린 기반의 백엔드 시스템을 10년 넘게 운영하다 보면 가장 골치 아픈 지점이 바로 라이브러리 버전 업데이트와 그에 따른 문서 파편화입니다. 특히 구글 클라우드(Google Cloud)나 파이어베이스(Firebase)처럼 변화 속도가 빠른 플랫폼을 다룰 때, 구글링으로 찾은 예제 코드가 이미 디프리케이트(Deprecated)된 경우를 수없이 겪었습니다. ...

DSPy로 프롬프트 엔지니어링 자동화 및 LLM 성능 최적화하기

한 줄 요약 — 드롭박스(Dropbox)는 DSPy를 활용해 LLM 기반 검색 결과 평가 시스템을 자동 최적화함으로써, 인간과의 평가 일치도를 45% 높이고 운영 비용을 최대 100배 절감했습니다. 이 주제를 꺼낸 이유 검색 시스템이나 추천 엔진을 만들 때 가장 고통스러운 지점은 결과가 정말로 사용자에게 유용한지 판단하는 과정입니다. 흔히 렐러번스 저지(Relevance Judge)라고 부르는 이 평가 단계는 과거에는 사람이 일일이 검수하거나 복잡한 규칙 기반 시스템에 의존했습니다. 최근에는 LLM을 판별기로 사용하는 LLM-as-a-Judge 방식이 대세가 되었지만, 정작 이 판별기를 고도화하는 과정은 여전히 수동 프롬프트 수정이라는 노가다에 머물러 있는 경우가 많습니다. ...