본문으로 건너뛰기
Previous
Next
MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화

MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화

MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화

이 글의 핵심

MongoDB 고급 기능 완벽 가이드. 인덱싱 전략, Aggregation Pipeline, 샤딩, 복제, 트랜잭션, 성능 최적화까지 실전 예제로 정리. MongoDB·NoSQL·Database 중심으로 설명합니다. Start now.

이 글의 핵심

MongoDB의 고급 기능을 실전 예제로 완벽 정리합니다. 인덱싱 전략, Aggregation Pipeline, 샤딩, 복제, 트랜잭션, 성능 최적화까지 실무에 바로 적용할 수 있는 가이드입니다.

실무 경험 공유: 일 10억 건의 로그를 처리하는 MongoDB 클러스터를 운영하면서, 샤딩으로 쿼리 속도를 5배 향상시키고 인덱싱으로 디스크 사용량을 60% 절감한 경험을 공유합니다.

들어가며: “MongoDB가 느려요”

실무 문제 시나리오

시나리오 1: 쿼리가 10초 걸려요

1억 건 컬렉션에서 쿼리가 느립니다. 인덱스로 0.1초로 단축합니다. 시나리오 2: 데이터가 너무 많아요

단일 서버로 감당 안 됩니다. 샤딩으로 분산합니다. 시나리오 3: 복잡한 집계가 필요해요

여러 단계의 데이터 변환이 필요합니다. Aggregation Pipeline으로 해결합니다.

1. MongoDB란?

핵심 특징

MongoDB는 문서 지향 NoSQL 데이터베이스입니다. 주요 장점:

  • 유연한 스키마: JSON 형태 문서
  • 수평 확장: 샤딩 지원
  • 강력한 쿼리: Aggregation Pipeline
  • 고가용성: 복제 세트
  • 빠른 성능: 인메모리 처리

2. 인덱싱 전략

단일 필드 인덱스

// 인덱스 생성
db.users.createIndex({ email: 1 });
// 복합 인덱스
db.orders.createIndex({ userId: 1, createdAt: -1 });
// 유니크 인덱스
db.users.createIndex({ email: 1 }, { unique: true });
// 부분 인덱스
db.users.createIndex(
  { email: 1 },
  { partialFilterExpression: { isActive: true } }
);

텍스트 인덱스

// 전문 검색 인덱스
db.articles.createIndex({ title: 'text', content: 'text' });
// 검색
db.articles.find({ $text: { $search: 'mongodb tutorial' } });

지리 공간 인덱스

// 2dsphere 인덱스
db.places.createIndex({ location: '2dsphere' });
// 근처 검색
db.places.find({
  location: {
    $near: {
      $geometry: {
        type: 'Point',
        coordinates: [127.0276, 37.4979],  // 강남역
      },
      $maxDistance: 1000,  // 1km
    },
  },
});

3. Aggregation Pipeline

기본 사용

db.orders.aggregate([
  // 1. 필터링
  { $match: { status: 'completed' } },
  
  // 2. 그룹화
  {
    $group: {
      _id: '$userId',
      totalAmount: { $sum: '$amount' },
      orderCount: { $sum: 1 },
    },
  },
  
  // 3. 정렬
  { $sort: { totalAmount: -1 } },
  
  // 4. 제한
  { $limit: 10 },
]);

복잡한 집계

// 사용자별 월별 매출
db.orders.aggregate([
  {
    $match: {
      createdAt: {
        $gte: new Date('2026-01-01'),
        $lt: new Date('2027-01-01'),
      },
    },
  },
  {
    $group: {
      _id: {
        userId: '$userId',
        year: { $year: '$createdAt' },
        month: { $month: '$createdAt' },
      },
      revenue: { $sum: '$amount' },
      orders: { $sum: 1 },
    },
  },
  {
    $lookup: {
      from: 'users',
      localField: '_id.userId',
      foreignField: '_id',
      as: 'user',
    },
  },
  { $unwind: '$user' },
  {
    $project: {
      _id: 0,
      userName: '$user.name',
      year: '$_id.year',
      month: '$_id.month',
      revenue: 1,
      orders: 1,
    },
  },
  { $sort: { revenue: -1 } },
]);

4. 샤딩

샤드 키 선택

// 좋은 샤드 키: 고른 분산
sh.shardCollection('mydb.users', { userId: 'hashed' });
// 나쁜 샤드 키: 불균형 분산
sh.shardCollection('mydb.orders', { createdAt: 1 });  // 최근 데이터에 몰림

샤딩 설정

# Config Server 시작
mongod --configsvr --replSet configReplSet --port 27019
# Shard Server 시작
mongod --shardsvr --replSet shard1 --port 27018
# Mongos (라우터) 시작
mongos --configdb configReplSet/localhost:27019 --port 27017

5. 복제 세트

복제 세트 구성

// Primary 서버에서
rs.initiate({
  _id: 'rs0',
  members: [
    { _id: 0, host: 'localhost:27017' },
    { _id: 1, host: 'localhost:27018' },
    { _id: 2, host: 'localhost:27019' },
  ],
});
// 상태 확인
rs.status();

Read Preference

// Node.js 드라이버
const client = new MongoClient(uri, {
  readPreference: 'secondaryPreferred',  // Secondary에서 읽기 우선
});

6. 트랜잭션

단일 문서 트랜잭션

const session = client.startSession();
try {
  await session.withTransaction(async () => {
    await db.collection('accounts').updateOne(
      { _id: fromAccount },
      { $inc: { balance: -100 } },
      { session }
    );
    await db.collection('accounts').updateOne(
      { _id: toAccount },
      { $inc: { balance: 100 } },
      { session }
    );
  });
} finally {
  await session.endSession();
}

7. 성능 최적화

쿼리 최적화

// ❌ 느린 쿼리
db.users.find({ email: { $regex: /.*@example.com/ } });
// ✅ 빠른 쿼리 (인덱스 사용)
db.users.find({ email: '[email protected]' });
// Explain으로 확인
db.users.find({ email: '[email protected]' }).explain('executionStats');

Projection (필요한 필드만)

// ❌ 모든 필드 조회
db.users.find({});
// ✅ 필요한 필드만
db.users.find({}, { name: 1, email: 1, _id: 0 });

Covered Query (인덱스만 사용)

// 인덱스 생성
db.users.createIndex({ email: 1, name: 1 });
// Covered Query (디스크 접근 없음)
db.users.find(
  { email: '[email protected]' },
  { email: 1, name: 1, _id: 0 }
);

8. 실전 예제: 로그 분석 시스템

TypeScript/JavaScript 예제 코드입니다.

// 로그 컬렉션
db.logs.insertMany([
  {
    userId: 1,
    action: 'login',
    ip: '192.168.1.1',
    timestamp: new Date('2026-04-01T10:00:00Z'),
  },
  {
    userId: 1,
    action: 'view_product',
    productId: 123,
    timestamp: new Date('2026-04-01T10:05:00Z'),
  },
  {
    userId: 2,
    action: 'purchase',
    amount: 99.99,
    timestamp: new Date('2026-04-01T10:10:00Z'),
  },
]);
// 인덱스 생성
db.logs.createIndex({ userId: 1, timestamp: -1 });
db.logs.createIndex({ action: 1 });
// 사용자별 일일 활동 분석
db.logs.aggregate([
  {
    $match: {
      timestamp: {
        $gte: new Date('2026-04-01'),
        $lt: new Date('2026-04-02'),
      },
    },
  },
  {
    $group: {
      _id: {
        userId: '$userId',
        action: '$action',
      },
      count: { $sum: 1 },
    },
  },
  {
    $group: {
      _id: '$_id.userId',
      actions: {
        $push: {
          action: '$_id.action',
          count: '$count',
        },
      },
      totalActions: { $sum: '$count' },
    },
  },
  { $sort: { totalActions: -1 } },
  { $limit: 10 },
]);

정리 및 체크리스트

핵심 요약

  • MongoDB: 문서 지향 NoSQL 데이터베이스
  • 인덱싱: B-Tree, 텍스트, 지리 공간 인덱스
  • Aggregation: 강력한 데이터 집계 파이프라인
  • 샤딩: 수평 확장
  • 복제: 고가용성
  • 트랜잭션: ACID 보장

프로덕션 체크리스트

  • 적절한 인덱스 생성
  • Aggregation Pipeline 최적화
  • 샤딩 전략 수립 (필요 시)
  • 복제 세트 구성
  • 백업 자동화
  • 모니터링 설정

같이 보면 좋은 글


이 글에서 다루는 키워드

MongoDB, NoSQL, Database, Indexing, Aggregation, Sharding, Performance

자주 묻는 질문 (FAQ)

Q. MongoDB vs PostgreSQL, 어떤 게 나은가요?

A. MongoDB는 유연한 스키마와 수평 확장에 유리합니다. PostgreSQL은 복잡한 관계와 트랜잭션에 강합니다. 요구사항에 따라 선택하세요.

Q. 트랜잭션을 사용할 수 있나요?

A. 네, MongoDB 4.0부터 다중 문서 트랜잭션을 지원합니다. 복제 세트나 샤드 클러스터에서 사용 가능합니다.

Q. 인덱스를 많이 만들면 성능이 나빠지나요?

A. 네, 쓰기 성능이 저하됩니다. 자주 조회하는 필드에만 인덱스를 만드세요.

Q. 샤딩은 언제 사용하나요?

A. 단일 서버로 감당할 수 없을 때 (수억 건 이상, 수 TB 이상) 사용합니다. 초기에는 복제 세트로 충분합니다.

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]
sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)
  • 불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
  • 결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
  • 경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
  • 백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역운영 관점 질문
관측성요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

  1. 입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
  2. 핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
  3. 실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
  4. 호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
  5. 부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.
handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상가능 원인조치
간헐적 실패레이스, 타임아웃, 외부 의존성, DNS최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패환경 변수, 권한, 플랫폼 차이, lockfileCI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치프로필·시크릿·기본값, 리전스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치비멱등 재시도, 부분 쓰기, 캐시 무효화 누락멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git addgit commitgit pushnpm run deploy 순서를 권장합니다.