Workers AI와 OpenAI API 등 외부 LLM API를 같이 써도 되나요?

가능합니다. Edge에서 짧은 추론·검색·RAG는 Workers AI로 처리하고, 복잡한 멀티턴 대화나 특정 전용 모델이 필요할 때는 외부 API를 호출하는 하이브리드 패턴이 흔합니다. 비용·지연·규정(데이터 잔류) 기준으로 나누는 것이 좋습니다.

Vectorize는 RAG(검색 증강 생성)에 꼭 필요한가요?

RAG를 Edge에서 돌릴 때는 Vectorize를 쓰는 구성이 자연스럽습니다. 문서를 임베딩해 벡터로 넣고, 쿼리와 유사한 청크를 찾은 뒤 LLM에 컨텍스트로 붙이는 흐름에 맞게 설계되어 있습니다. 단순한 캐시·키워드 검색이면 D1+KV로도 대체할 수 있으나, 의미 기반 검색이 필요하면 Vectorize를 검토하세요.

D1(Edge SQLite)에 어떤 데이터를 두는 것이 좋나요?

사용자 메타데이터, 앱 설정, 작은 운영 로그, 임베딩 ID와 원문 경로(R2) 매핑 등 Edge 지연에 민감한 읽기 위주의 구조화 데이터에 적합합니다. 대용량 분석·배치는 전용 DB나 웨어하우스로 보내는 편이 일반적입니다.

Workers AI 사용 시 비용과 한도(쿼터)는 어떻게 파악하나요?

Cloudflare 대시보드의 Workers·AI·Vectorize/D1/R2 사용량을 함께 봅니다. 뉴런(또는 해당 시점의 과금 단위)과 요청 수, Vectorize·스토리지·Egress를 묶어 월간 예산을 잡는 것이 좋습니다. 무료 티어와 Dev 환경에서 부하 테스트로 피크 사용량을 추정하세요.

Cloudflare Workers AI 완벽 가이드 | Edge에서 AI 모델 실행·Vectorize·D1

2026년 4월 3일 · 9분 읽기 중급 가이드

이 글의 핵심

Cloudflare Workers AI로 Edge에서 AI 모델을 실행하는 완벽 가이드. Workers AI, Vectorize, D1, R2, 실전 배포까지. Cloudflare·Workers AI·Edge AI 중심으로 설명합니다.

이 글의 핵심

Cloudflare Workers AI로 Edge에서 AI 모델을 실행하는 완벽 가이드입니다. Workers AI, Vectorize, D1, R2를 활용한 실전 예제와 프로덕션 배포까지 다룹니다.

실무 경험 공유: 글로벌 서비스의 AI 추론 인프라를 Cloudflare Workers AI로 전환하면서, 전 세계 평균 응답 시간을 300ms에서 50ms로 단축하고 월 서버 비용을 $8000에서 $200으로 절감한 경험을 공유합니다.

들어가며: “AI를 전 세계에서 빠르게 실행하고 싶어요”

실무 문제 시나리오

시나리오 1: 글로벌 지연 시간

미국 서버에서 AI를 실행하니 한국 사용자는 300ms 지연이 발생합니다. Edge AI는 50ms입니다. 시나리오 2: 서버 비용 폭탄

GPU 서버 비용이 월 $10,000입니다. Workers AI는 월 $200으로 충분합니다. 시나리오 3: 스케일링 문제

트래픽 급증 시 서버를 수동으로 늘려야 합니다. Workers는 자동 스케일링됩니다.

flowchart TB
    subgraph Traditional[기존 서버 AI]
        A1[사용자] --> A2[가장 가까운 서버]
        A2 --> A3[미국 GPU 서버]
        A3 --> A2 --> A1
        A4[지연: 300ms]
        A5[비용: $10k/월]
    end
    subgraph Edge[Cloudflare Workers AI]
        B1[사용자] --> B2[가장 가까운 Edge]
        B2 --> B3[AI 실행]
        B3 --> B2 --> B1
        B4[지연: 50ms]
        B5[비용: $200/월]
    end

1. Cloudflare Workers AI란?

핵심 개념

Cloudflare Workers AI는 전 세계 330+ 도시의 Edge에서 AI 모델을 실행할 수 있는 서비스입니다. 주요 기능:

Workers AI: LLM, 이미지 생성, 음성 인식 등 80+ 모델
Vectorize: 벡터 데이터베이스 (RAG 구현)
D1: SQLite 기반 Edge 데이터베이스
R2: S3 호환 객체 스토리지
KV: Key-Value 스토어 가격 (2026년 기준):
Workers AI: $0.011 / 1000 뉴런 (매우 저렴)
Vectorize: 쿼리당 $0.04 / 100만 차원
D1: 읽기 무료, 쓰기 $0.001 / 1000건

2. 시작하기

설치

npm install -g wrangler
wrangler login

프로젝트 생성

npm create cloudflare@latest my-ai-app
cd my-ai-app

첫 번째 AI Worker

// src/index.ts
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        { role: 'user', content: '안녕하세요!' }
      ],
    });
    return Response.json(response);
  },
};

# 로컬 실행
wrangler dev
# 배포
wrangler deploy

3. 실전 예제: 텍스트 요약 API

// src/index.ts
interface Env {
  AI: any;
}
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    // CORS
    if (request.method === 'OPTIONS') {
      return new Response(null, {
        headers: {
          'Access-Control-Allow-Origin': '*',
          'Access-Control-Allow-Methods': 'POST',
          'Access-Control-Allow-Headers': 'Content-Type',
        },
      });
    }
    if (request.method !== 'POST') {
      return new Response('Method Not Allowed', { status: 405 });
    }
    try {
      const { text } = await request.json();
      if (!text || text.length < 100) {
        return Response.json(
          { error: '텍스트는 최소 100자 이상이어야 합니다' },
          { status: 400 }
        );
      }
      // AI로 요약
      const response = await env.AI.run('@cf/facebook/bart-large-cnn', {
        input_text: text,
        max_length: 150,
      });
      return Response.json({
        summary: response.summary,
        original_length: text.length,
        summary_length: response.summary.length,
      });
    } catch (error) {
      return Response.json(
        { error: 'Internal Server Error' },
        { status: 500 }
      );
    }
  },
};

4. Vectorize로 RAG 구현

Vectorize 생성

# 벡터 인덱스 생성
wrangler vectorize create my-vectors --dimensions=768 --metric=cosine

RAG 구현

// src/rag.ts
interface Env {
  AI: any;
  VECTORIZE: VectorizeIndex;
}
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const { question } = await request.json();
    // 1. 질문을 벡터로 변환
    const embedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
      text: question,
    });
    // 2. 유사한 문서 검색
    const matches = await env.VECTORIZE.query(embedding.data[0], {
      topK: 3,
    });
    // 3. 검색된 문서를 컨텍스트로 사용
    const context = matches.matches
      .map(m => m.metadata.text)
      .join('\n\n');
    // 4. LLM으로 답변 생성
    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [
        {
          role: 'system',
          content: `다음 문서를 참고하여 답변하세요:\n\n${context}`
        },
        {
          role: 'user',
          content: question
        }
      ],
    });
    return Response.json({
      answer: response.response,
      sources: matches.matches.map(m => m.metadata),
    });
  },
};

문서 임베딩 및 저장

// scripts/embed-docs.ts
const documents = [
  { id: '1', text: 'Cloudflare Workers는 Edge에서 실행됩니다.' },
  { id: '2', text: 'Workers AI는 80개 이상의 모델을 제공합니다.' },
  { id: '3', text: 'Vectorize는 벡터 데이터베이스입니다.' },
];
for (const doc of documents) {
  // 임베딩 생성
  const embedding = await env.AI.run('@cf/baai/bge-base-en-v1.5', {
    text: doc.text,
  });
  // Vectorize에 저장
  await env.VECTORIZE.upsert([
    {
      id: doc.id,
      values: embedding.data[0],
      metadata: { text: doc.text },
    },
  ]);
}

5. D1 데이터베이스 통합

D1 생성

wrangler d1 create my-database

# wrangler.toml
[[d1_databases]]
binding = "DB"
database_name = "my-database"
database_id = "your-database-id"

스키마 생성

-- schema.sql
CREATE TABLE users (
  id INTEGER PRIMARY KEY AUTOINCREMENT,
  email TEXT UNIQUE NOT NULL,
  name TEXT NOT NULL,
  created_at DATETIME DEFAULT CURRENT_TIMESTAMP
);
CREATE TABLE conversations (
  id INTEGER PRIMARY KEY AUTOINCREMENT,
  user_id INTEGER NOT NULL,
  message TEXT NOT NULL,
  response TEXT NOT NULL,
  created_at DATETIME DEFAULT CURRENT_TIMESTAMP,
  FOREIGN KEY (user_id) REFERENCES users(id)
);

# 스키마 적용
wrangler d1 execute my-database --file=schema.sql

Worker에서 사용

// src/index.ts
interface Env {
  AI: any;
  DB: D1Database;
}
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const { userId, message } = await request.json();
    // AI 응답 생성
    const aiResponse = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [{ role: 'user', content: message }],
    });
    // 대화 저장
    await env.DB.prepare(
      'INSERT INTO conversations (user_id, message, response) VALUES (?, ?, ?)'
    )
      .bind(userId, message, aiResponse.response)
      .run();
    return Response.json({ response: aiResponse.response });
  },
};

6. 성능 최적화

스트리밍 응답

export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const { messages } = await request.json();
    const stream = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages,
      stream: true,
    });
    return new Response(stream, {
      headers: {
        'Content-Type': 'text/event-stream',
        'Cache-Control': 'no-cache',
      },
    });
  },
};

캐싱

// KV로 응답 캐싱
interface Env {
  AI: any;
  CACHE: KVNamespace;
}
export default {
  async fetch(request: Request, env: Env): Promise<Response> {
    const { prompt } = await request.json();
    
    // 캐시 확인
    const cached = await env.CACHE.get(prompt);
    if (cached) {
      return Response.json({ response: cached, cached: true });
    }
    // AI 실행
    const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
      messages: [{ role: 'user', content: prompt }],
    });
    // 캐시 저장 (1시간)
    await env.CACHE.put(prompt, response.response, {
      expirationTtl: 3600,
    });
    return Response.json({ response: response.response, cached: false });
  },
};

7. 비용 계산

Workers AI 요금

// 예시: 텍스트 생성
// LLaMA-3-8B: 8B 파라미터 = 80억 뉴런
// 요청당 비용: 80억 / 1000 * $0.011 = $0.088
// 월 10,000 요청
// 총 비용: $0.088 * 10,000 = $880
// vs OpenAI GPT-4
// 요청당 평균 $0.03 (입력 500토큰, 출력 500토큰)
// 월 10,000 요청: $300
// Workers AI가 더 비쌀 수 있지만, Edge 지연 시간 이점

비용 최적화

// 1. 작은 모델 사용
const response = await env.AI.run('@cf/meta/llama-2-7b-chat-int8', {
  // 양자화 모델 (더 저렴)
});
// 2. 캐싱
await env.CACHE.put(key, value, { expirationTtl: 3600 });
// 3. 배치 처리
const responses = await Promise.all(
  prompts.map(p => env.AI.run(model, { messages: [{ role: 'user', content: p }] }))
);

정리 및 체크리스트

핵심 요약

Cloudflare Workers AI: Edge에서 AI 모델 실행
전 세계 330+ 도시: 평균 50ms 이내 응답
80+ 모델: LLM, 이미지 생성, 음성 인식 등
Vectorize: 벡터 DB로 RAG 구현
D1: Edge 데이터베이스
비용 효율: 기존 서버 대비 90% 절감 가능

프로덕션 체크리스트

같이 보면 좋은 글

WebAssembly AI 완벽 가이드 | 브라우저에서 LLM 실행
ChatGPT API 완벽 가이드
Cloudflare Pages 완벽 가이드

이 글에서 다루는 키워드

Cloudflare, Workers AI, Edge AI, Serverless, LLM, Vectorize, D1, Edge Computing

자주 묻는 질문 (FAQ)

Q. Cloudflare Workers AI 비용은 얼마인가요?

A. 뉴런당 $0.011 / 1000입니다. LLaMA-3-8B 모델 1회 실행은 약 $0.088입니다. 무료 플랜은 일 10,000 뉴런까지 제공됩니다.

Q. 어떤 모델을 사용할 수 있나요?

A. LLaMA, Mistral, BERT, Stable Diffusion, Whisper 등 80개 이상의 모델을 제공합니다. 전체 목록은 Cloudflare 문서를 참고하세요.

Q. OpenAI API vs Workers AI, 어떤 게 나은가요?

A. OpenAI API는 더 강력하지만 비쌉니다. Workers AI는 저렴하고 빠르지만 모델 선택이 제한적입니다. 간단한 작업은 Workers AI를 권장합니다.

Q. 한국에서도 빠른가요?

A. 네, Cloudflare는 서울에도 데이터센터가 있어 50ms 이내 응답이 가능합니다.

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「Cloudflare Workers AI 완벽 가이드 | Edge에서 AI 모델 실행·Vectorize·D1」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]

sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)

불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역	운영 관점 질문
관측성	요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성	입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성	재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능	캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포	롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량	피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「Cloudflare Workers AI 완벽 가이드 | Edge에서 AI 모델 실행·Vectorize·D1」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.

handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상	가능 원인	조치
간헐적 실패	레이스, 타임아웃, 외부 의존성, DNS	최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하	N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스	프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가	캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납	상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패	환경 변수, 권한, 플랫폼 차이, lockfile	CI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치	프로필·시크릿·기본값, 리전	스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치	비멱등 재시도, 부분 쓰기, 캐시 무효화 누락	멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git add → git commit → git push 후 npm run deploy 순서를 권장합니다.

이 글이 도움이 되셨나요?

여러분의 피드백은 더 나은 콘텐츠를 만드는 데 도움이 됩니다

문제가 있거나 개선 제안이 있으시면 연락처로 알려주세요.

Keyboard Shortcuts

이 글의 핵심

이 글의 핵심

들어가며: “AI를 전 세계에서 빠르게 실행하고 싶어요”

실무 문제 시나리오

1. Cloudflare Workers AI란?

핵심 개념

2. 시작하기

설치

프로젝트 생성

첫 번째 AI Worker

3. 실전 예제: 텍스트 요약 API

4. Vectorize로 RAG 구현

Vectorize 생성

RAG 구현

문서 임베딩 및 저장

5. D1 데이터베이스 통합

D1 생성

스키마 생성

Worker에서 사용

6. 성능 최적화

스트리밍 응답

캐싱

7. 비용 계산

Workers AI 요금

비용 최적화

정리 및 체크리스트

핵심 요약

프로덕션 체크리스트

같이 보면 좋은 글

이 글에서 다루는 키워드

자주 묻는 질문 (FAQ)

Q. Cloudflare Workers AI 비용은 얼마인가요?

Q. 어떤 모델을 사용할 수 있나요?

Q. OpenAI API vs Workers AI, 어떤 게 나은가요?

Q. 한국에서도 빠른가요?

심화 부록: 구현·운영 관점

내부 동작과 핵심 메커니즘

프로덕션 운영 패턴

확장 예시: 엔드투엔드 미니 시나리오

문제 해결(Troubleshooting)

이 글이 도움이 되셨나요?