복합 인덱스는 어떤 순서로 만들어야 하나요?

쿼리의 필터·정렬·범위 조건이 실제로 사용하는 필드 순서에 맞춥니다. 동등(Equals) 조건이 먼저, 정렬/범위(Range)는 뒤에 두는 것이 일반적이며, 자주 쓰는 쿼리 패턴이 여러 가지이면 explain()으로 인덱스 효율을 검증하는 것이 좋습니다.

샤딩 키를 잘못 고르면 어떤 문제가 생기나요?

쓰기가 특정 샤드에 몰리면 핫스팟이 되고, 쿼리가 샤딩 키와 맞지 않으면 scatter-gather로 모든 샤드를 스캔할 수 있습니다. 쓰기·읽기 부하를 고르게 분산하고, 주요 쿼리에 맞는 키를 선택하는 것이 중요합니다.

Aggregation Pipeline을 여러 컬렉션에 쓰려면 어떻게 해야 하나요?

$lookup으로 다른 컬렉션을 조인하거나, $facet로 분기·병렬 집계를 구성할 수 있습니다. 대규모 데이터에서는 가능한 앞단에서 $match·$project로 문서 수를 줄이고, 이후 $group 등 비용이 큰 단계를 배치하세요.

복제 세트(Replica Set)에서 읽기 일관성은 어떻게 조절하나요?

read concern과 read preference로 조절합니다. primary는 최신 읽기, secondary는 지연(lag)을 감수하고 부하를 분산할 수 있습니다. 강한 일관성이 필요하면 primary와 majority 등 적절한 read concern을 조합하세요.

MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화

2026년 4월 7일 · 4분 읽기 · 수정 2026년 4월 7일 고급

이 글의 핵심

MongoDB 고급 기능 완벽 가이드. 인덱싱 전략, Aggregation Pipeline, 샤딩, 복제, 트랜잭션, 성능 최적화까지 실전 예제로 정리. MongoDB·NoSQL·Database 중심으로 설명합니다. Start now.

이 글의 핵심

MongoDB의 고급 기능을 실전 예제로 완벽 정리합니다. 인덱싱 전략, Aggregation Pipeline, 샤딩, 복제, 트랜잭션, 성능 최적화까지 실무에 바로 적용할 수 있는 가이드입니다.

실무 경험 공유: 일 10억 건의 로그를 처리하는 MongoDB 클러스터를 운영하면서, 샤딩으로 쿼리 속도를 5배 향상시키고 인덱싱으로 디스크 사용량을 60% 절감한 경험을 공유합니다.

들어가며: “MongoDB가 느려요”

실무 문제 시나리오

시나리오 1: 쿼리가 10초 걸려요

1억 건 컬렉션에서 쿼리가 느립니다. 인덱스로 0.1초로 단축합니다. 시나리오 2: 데이터가 너무 많아요

단일 서버로 감당 안 됩니다. 샤딩으로 분산합니다. 시나리오 3: 복잡한 집계가 필요해요

여러 단계의 데이터 변환이 필요합니다. Aggregation Pipeline으로 해결합니다.

1. MongoDB란?

핵심 특징

MongoDB는 문서 지향 NoSQL 데이터베이스입니다. 주요 장점:

유연한 스키마: JSON 형태 문서
수평 확장: 샤딩 지원
강력한 쿼리: Aggregation Pipeline
고가용성: 복제 세트
빠른 성능: 인메모리 처리

2. 인덱싱 전략

단일 필드 인덱스

// 인덱스 생성
db.users.createIndex({ email: 1 });
// 복합 인덱스
db.orders.createIndex({ userId: 1, createdAt: -1 });
// 유니크 인덱스
db.users.createIndex({ email: 1 }, { unique: true });
// 부분 인덱스
db.users.createIndex(
  { email: 1 },
  { partialFilterExpression: { isActive: true } }
);

텍스트 인덱스

// 전문 검색 인덱스
db.articles.createIndex({ title: 'text', content: 'text' });
// 검색
db.articles.find({ $text: { $search: 'mongodb tutorial' } });

지리 공간 인덱스

// 2dsphere 인덱스
db.places.createIndex({ location: '2dsphere' });
// 근처 검색
db.places.find({
  location: {
    $near: {
      $geometry: {
        type: 'Point',
        coordinates: [127.0276, 37.4979],  // 강남역
      },
      $maxDistance: 1000,  // 1km
    },
  },
});

3. Aggregation Pipeline

기본 사용

db.orders.aggregate([
  // 1. 필터링
  { $match: { status: 'completed' } },
  
  // 2. 그룹화
  {
    $group: {
      _id: '$userId',
      totalAmount: { $sum: '$amount' },
      orderCount: { $sum: 1 },
    },
  },
  
  // 3. 정렬
  { $sort: { totalAmount: -1 } },
  
  // 4. 제한
  { $limit: 10 },
]);

복잡한 집계

// 사용자별 월별 매출
db.orders.aggregate([
  {
    $match: {
      createdAt: {
        $gte: new Date('2026-01-01'),
        $lt: new Date('2027-01-01'),
      },
    },
  },
  {
    $group: {
      _id: {
        userId: '$userId',
        year: { $year: '$createdAt' },
        month: { $month: '$createdAt' },
      },
      revenue: { $sum: '$amount' },
      orders: { $sum: 1 },
    },
  },
  {
    $lookup: {
      from: 'users',
      localField: '_id.userId',
      foreignField: '_id',
      as: 'user',
    },
  },
  { $unwind: '$user' },
  {
    $project: {
      _id: 0,
      userName: '$user.name',
      year: '$_id.year',
      month: '$_id.month',
      revenue: 1,
      orders: 1,
    },
  },
  { $sort: { revenue: -1 } },
]);

4. 샤딩

샤드 키 선택

// 좋은 샤드 키: 고른 분산
sh.shardCollection('mydb.users', { userId: 'hashed' });
// 나쁜 샤드 키: 불균형 분산
sh.shardCollection('mydb.orders', { createdAt: 1 });  // 최근 데이터에 몰림

샤딩 설정

# Config Server 시작
mongod --configsvr --replSet configReplSet --port 27019
# Shard Server 시작
mongod --shardsvr --replSet shard1 --port 27018
# Mongos (라우터) 시작
mongos --configdb configReplSet/localhost:27019 --port 27017

5. 복제 세트

복제 세트 구성

// Primary 서버에서
rs.initiate({
  _id: 'rs0',
  members: [
    { _id: 0, host: 'localhost:27017' },
    { _id: 1, host: 'localhost:27018' },
    { _id: 2, host: 'localhost:27019' },
  ],
});
// 상태 확인
rs.status();

Read Preference

// Node.js 드라이버
const client = new MongoClient(uri, {
  readPreference: 'secondaryPreferred',  // Secondary에서 읽기 우선
});

6. 트랜잭션

단일 문서 트랜잭션

const session = client.startSession();
try {
  await session.withTransaction(async () => {
    await db.collection('accounts').updateOne(
      { _id: fromAccount },
      { $inc: { balance: -100 } },
      { session }
    );
    await db.collection('accounts').updateOne(
      { _id: toAccount },
      { $inc: { balance: 100 } },
      { session }
    );
  });
} finally {
  await session.endSession();
}

7. 성능 최적화

쿼리 최적화

// ❌ 느린 쿼리
db.users.find({ email: { $regex: /.*@example.com/ } });
// ✅ 빠른 쿼리 (인덱스 사용)
db.users.find({ email: '[email protected]' });
// Explain으로 확인
db.users.find({ email: '[email protected]' }).explain('executionStats');

Projection (필요한 필드만)

// ❌ 모든 필드 조회
db.users.find({});
// ✅ 필요한 필드만
db.users.find({}, { name: 1, email: 1, _id: 0 });

Covered Query (인덱스만 사용)

// 인덱스 생성
db.users.createIndex({ email: 1, name: 1 });
// Covered Query (디스크 접근 없음)
db.users.find(
  { email: '[email protected]' },
  { email: 1, name: 1, _id: 0 }
);

8. 실전 예제: 로그 분석 시스템

TypeScript/JavaScript 예제 코드입니다.

// 로그 컬렉션
db.logs.insertMany([
  {
    userId: 1,
    action: 'login',
    ip: '192.168.1.1',
    timestamp: new Date('2026-04-01T10:00:00Z'),
  },
  {
    userId: 1,
    action: 'view_product',
    productId: 123,
    timestamp: new Date('2026-04-01T10:05:00Z'),
  },
  {
    userId: 2,
    action: 'purchase',
    amount: 99.99,
    timestamp: new Date('2026-04-01T10:10:00Z'),
  },
]);
// 인덱스 생성
db.logs.createIndex({ userId: 1, timestamp: -1 });
db.logs.createIndex({ action: 1 });
// 사용자별 일일 활동 분석
db.logs.aggregate([
  {
    $match: {
      timestamp: {
        $gte: new Date('2026-04-01'),
        $lt: new Date('2026-04-02'),
      },
    },
  },
  {
    $group: {
      _id: {
        userId: '$userId',
        action: '$action',
      },
      count: { $sum: 1 },
    },
  },
  {
    $group: {
      _id: '$_id.userId',
      actions: {
        $push: {
          action: '$_id.action',
          count: '$count',
        },
      },
      totalActions: { $sum: '$count' },
    },
  },
  { $sort: { totalActions: -1 } },
  { $limit: 10 },
]);

정리 및 체크리스트

핵심 요약

MongoDB: 문서 지향 NoSQL 데이터베이스
인덱싱: B-Tree, 텍스트, 지리 공간 인덱스
Aggregation: 강력한 데이터 집계 파이프라인
샤딩: 수평 확장
복제: 고가용성
트랜잭션: ACID 보장

프로덕션 체크리스트

같이 보면 좋은 글

PostgreSQL 고급 가이드
Redis 고급 가이드
Prisma 완벽 가이드

이 글에서 다루는 키워드

MongoDB, NoSQL, Database, Indexing, Aggregation, Sharding, Performance

자주 묻는 질문 (FAQ)

Q. MongoDB vs PostgreSQL, 어떤 게 나은가요?

A. MongoDB는 유연한 스키마와 수평 확장에 유리합니다. PostgreSQL은 복잡한 관계와 트랜잭션에 강합니다. 요구사항에 따라 선택하세요.

Q. 트랜잭션을 사용할 수 있나요?

A. 네, MongoDB 4.0부터 다중 문서 트랜잭션을 지원합니다. 복제 세트나 샤드 클러스터에서 사용 가능합니다.

Q. 인덱스를 많이 만들면 성능이 나빠지나요?

A. 네, 쓰기 성능이 저하됩니다. 자주 조회하는 필드에만 인덱스를 만드세요.

Q. 샤딩은 언제 사용하나요?

A. 단일 서버로 감당할 수 없을 때 (수억 건 이상, 수 TB 이상) 사용합니다. 초기에는 복제 세트로 충분합니다.

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]

sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)

불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역	운영 관점 질문
관측성	요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성	입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성	재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능	캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포	롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량	피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「MongoDB 고급 가이드 | 인덱싱·Aggregation·샤딩·복제·성능 최적화」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.

handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상	가능 원인	조치
간헐적 실패	레이스, 타임아웃, 외부 의존성, DNS	최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하	N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스	프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가	캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납	상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패	환경 변수, 권한, 플랫폼 차이, lockfile	CI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치	프로필·시크릿·기본값, 리전	스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치	비멱등 재시도, 부분 쓰기, 캐시 무효화 누락	멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git add → git commit → git push 후 npm run deploy 순서를 권장합니다.

이 글이 도움이 되셨나요?

여러분의 피드백은 더 나은 콘텐츠를 만드는 데 도움이 됩니다

문제가 있거나 개선 제안이 있으시면 연락처로 알려주세요.

Keyboard Shortcuts

이 글의 핵심

이 글의 핵심

들어가며: “MongoDB가 느려요”

실무 문제 시나리오

여러 단계의 데이터 변환이 필요합니다. Aggregation Pipeline으로 해결합니다.

1. MongoDB란?

핵심 특징

2. 인덱싱 전략

단일 필드 인덱스

텍스트 인덱스

지리 공간 인덱스

3. Aggregation Pipeline

기본 사용

복잡한 집계

4. 샤딩

샤드 키 선택

샤딩 설정

5. 복제 세트

복제 세트 구성

Read Preference

6. 트랜잭션

단일 문서 트랜잭션

7. 성능 최적화

쿼리 최적화

Projection (필요한 필드만)

Covered Query (인덱스만 사용)

8. 실전 예제: 로그 분석 시스템

정리 및 체크리스트

핵심 요약

프로덕션 체크리스트

같이 보면 좋은 글

이 글에서 다루는 키워드

자주 묻는 질문 (FAQ)

Q. MongoDB vs PostgreSQL, 어떤 게 나은가요?

Q. 트랜잭션을 사용할 수 있나요?

Q. 인덱스를 많이 만들면 성능이 나빠지나요?

Q. 샤딩은 언제 사용하나요?

심화 부록: 구현·운영 관점

내부 동작과 핵심 메커니즘

프로덕션 운영 패턴

확장 예시: 엔드투엔드 미니 시나리오

문제 해결(Troubleshooting)

이 글이 도움이 되셨나요?