본문으로 건너뛰기
Previous
Next
C++ Benchmarking | chrono·Google Benchmark 성능 측정 완벽 정리

C++ Benchmarking | chrono·Google Benchmark 성능 측정 완벽 정리

C++ Benchmarking | chrono·Google Benchmark 성능 측정 완벽 정리

이 글의 핵심

C++ 성능 벤치마킹: chrono 고해상도 시계로 측정하고 워밍업·반복 실행·통계 분석으로 신뢰할 수 있는 수치를 얻는 실무 절차를 설명합니다.

들어가며

벤치마킹(Benchmarking) 은 코드의 성능을 정량적으로 측정하는 과정입니다. 단순히 한 번 실행 시간을 재는 것이 아니라, 워밍업, 반복 실행, 통계 분석을 통해 신뢰할 수 있는 수치를 얻어야 합니다.

이 글을 읽으면

  • std::chrono로 고해상도 시간 측정을 구현합니다
  • 워밍업, 반복 실행, 통계 분석으로 정확한 벤치마크를 작성합니다
  • Google Benchmark 라이브러리로 전문적인 벤치마크를 구현합니다
  • 실무에서 자주 쓰이는 벤치마킹 패턴을 익힙니다

기본 개념

벤치마킹 프로세스

graph LR
    A[코드 작성] --> B[워밍업]
    B --> C[측정 시작]
    C --> D[반복 실행]
    D --> E[측정 종료]
    E --> F[통계 분석]
    F --> G{목표 달성?}
    G -->|No| H[최적화]
    H --> A
    G -->|Yes| I[완료]

기본 측정

#include <chrono>
#include <iostream>
int main() {
    auto start = std::chrono::high_resolution_clock::now();
    
    // 코드 실행
    std::vector<int> v(1000000);
    
    auto end = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::microseconds>(
        end - start
    );
    
    std::cout << "시간: " << duration.count() << "μs" << std::endl;
    
    return 0;
}

실전 구현

1) 기본 벤치마크 함수

#include <chrono>
#include <iostream>
#include <functional>
template<typename Func>
auto benchmark(Func f, int iterations = 1000) {
    using namespace std::chrono;
    
    auto start = high_resolution_clock::now();
    
    for (int i = 0; i < iterations; ++i) {
        f();
    }
    
    auto end = high_resolution_clock::now();
    auto total = duration_cast<microseconds>(end - start);
    
    return total.count() / iterations;
}
int main() {
    auto avgTime = benchmark([]() {
        std::vector<int> v(1000);
    });
    
    std::cout << "평균: " << avgTime << "μs" << std::endl;
    
    return 0;
}

2) 통계 수집

#include <vector>
#include <algorithm>
#include <numeric>
#include <cmath>
#include <iostream>
class BenchmarkStats {
private:
    std::vector<double> samples;
    
public:
    void addSample(double microseconds) {
        samples.push_back(microseconds);
    }
    
    double mean() const {
        if (samples.empty()) return 0.0;
        auto sum = std::accumulate(samples.begin(), samples.end(), 0.0);
        return sum / samples.size();
    }
    
    double median() const {
        if (samples.empty()) return 0.0;
        auto sorted = samples;
        std::sort(sorted.begin(), sorted.end());
        return sorted[sorted.size() / 2];
    }
    
    double min() const {
        return *std::min_element(samples.begin(), samples.end());
    }
    
    double max() const {
        return *std::max_element(samples.begin(), samples.end());
    }
    
    double stddev() const {
        if (samples.size() < 2) return 0.0;
        double avg = mean();
        double variance = 0.0;
        for (double s : samples) {
            variance += (s - avg) * (s - avg);
        }
        return std::sqrt(variance / (samples.size() - 1));
    }
    
    double percentile(double p) const {
        if (samples.empty()) return 0.0;
        auto sorted = samples;
        std::sort(sorted.begin(), sorted.end());
        size_t index = static_cast<size_t>(p * sorted.size());
        return sorted[index];
    }
    
    void printStats() const {
        std::cout << "평균: " << mean() << "μs" << std::endl;
        std::cout << "중앙값: " << median() << "μs" << std::endl;
        std::cout << "최소: " << min() << "μs" << std::endl;
        std::cout << "최대: " << max() << "μs" << std::endl;
        std::cout << "표준편차: " << stddev() << "μs" << std::endl;
        std::cout << "P95: " << percentile(0.95) << "μs" << std::endl;
        std::cout << "P99: " << percentile(0.99) << "μs" << std::endl;
    }
};

3) 워밍업 패턴

#include <chrono>
#include <iostream>
#include <functional>
template<typename Func>
BenchmarkStats benchmarkWithWarmup(Func f, int warmup, int iterations) {
    // 워밍업
    for (int i = 0; i < warmup; ++i) {
        f();
    }
    
    // 측정
    BenchmarkStats stats;
    for (int i = 0; i < iterations; ++i) {
        auto start = std::chrono::high_resolution_clock::now();
        f();
        auto end = std::chrono::high_resolution_clock::now();
        
        auto duration = std::chrono::duration_cast<std::chrono::microseconds>(
            end - start
        );
        stats.addSample(duration.count());
    }
    
    return stats;
}
int main() {
    auto stats = benchmarkWithWarmup([]() {
        std::vector<int> v(1000);
    }, 10, 100);
    
    stats.printStats();
    
    return 0;
}

4) 알고리즘 비교

#include <algorithm>
#include <vector>
#include <chrono>
#include <iostream>
#include <random>
void compareSort() {
    std::vector<int> data(100000);
    std::random_device rd;
    std::mt19937 gen(rd());
    std::uniform_int_distribution<> dis(0, 100000);
    std::generate(data.begin(), data.end(), [&]() { return dis(gen); });
    
    // std::sort
    auto data1 = data;
    auto start1 = std::chrono::high_resolution_clock::now();
    std::sort(data1.begin(), data1.end());
    auto end1 = std::chrono::high_resolution_clock::now();
    auto time1 = std::chrono::duration_cast<std::chrono::milliseconds>(end1 - start1);
    
    // std::stable_sort
    auto data2 = data;
    auto start2 = std::chrono::high_resolution_clock::now();
    std::stable_sort(data2.begin(), data2.end());
    auto end2 = std::chrono::high_resolution_clock::now();
    auto time2 = std::chrono::duration_cast<std::chrono::milliseconds>(end2 - start2);
    
    std::cout << "sort: " << time1.count() << "ms" << std::endl;
    std::cout << "stable_sort: " << time2.count() << "ms" << std::endl;
}
int main() {
    compareSort();
    
    return 0;
}

출력 예시:

sort: 8ms
stable_sort: 12ms

5) Google Benchmark

설치

# Linux/macOS
git clone https://github.com/google/benchmark.git
cd benchmark
cmake -E make_directory "build"
cmake -E chdir "build" cmake -DBENCHMARK_DOWNLOAD_DEPENDENCIES=on -DCMAKE_BUILD_TYPE=Release ../
cmake --build "build" --config Release
sudo cmake --build "build" --target install

기본 사용

#include <benchmark/benchmark.h>
#include <vector>
static void BM_VectorPushBack(benchmark::State& state) {
    for (auto _ : state) {
        std::vector<int> v;
        for (int i = 0; i < state.range(0); ++i) {
            v.push_back(i);
        }
    }
}
BENCHMARK(BM_VectorPushBack)->Range(8, 8<<10);
static void BM_VectorReserve(benchmark::State& state) {
    for (auto _ : state) {
        std::vector<int> v;
        v.reserve(state.range(0));
        for (int i = 0; i < state.range(0); ++i) {
            v.push_back(i);
        }
    }
}
BENCHMARK(BM_VectorReserve)->Range(8, 8<<10);
BENCHMARK_MAIN();

컴파일 및 실행:

g++ -std=c++17 bench.cpp -lbenchmark -lpthread -o bench
./bench

출력 예시:

-----------------------------------------------------------------
Benchmark                       Time             CPU   Iterations
-----------------------------------------------------------------
BM_VectorPushBack/8           120 ns          120 ns      5600000
BM_VectorPushBack/64          850 ns          850 ns       800000
BM_VectorPushBack/512        6800 ns         6800 ns       100000
BM_VectorReserve/8             80 ns           80 ns      8700000
BM_VectorReserve/64           500 ns          500 ns      1400000
BM_VectorReserve/512         4000 ns         4000 ns       175000

고급 활용

1) 최적화 방지

#include <benchmark/benchmark.h>
static void BM_Compute(benchmark::State& state) {
    for (auto _ : state) {
        int result = 1 + 1;
        benchmark::DoNotOptimize(result);  // 최적화 방지
    }
}
BENCHMARK(BM_Compute);
BENCHMARK_MAIN();

2) 메모리 사용량 측정

#include <benchmark/benchmark.h>
#include <vector>
static void BM_VectorMemory(benchmark::State& state) {
    for (auto _ : state) {
        std::vector<int> v(state.range(0));
        benchmark::DoNotOptimize(v.data());
        
        state.SetBytesProcessed(state.iterations() * state.range(0) * sizeof(int));
    }
}
BENCHMARK(BM_VectorMemory)->Range(8, 8<<10);
BENCHMARK_MAIN();

3) 사용자 정의 카운터

#include <benchmark/benchmark.h>
#include <vector>
static void BM_CustomCounter(benchmark::State& state) {
    int operations = 0;
    
    for (auto _ : state) {
        std::vector<int> v(state.range(0));
        operations += state.range(0);
    }
    
    state.counters[operations] = operations;
}
BENCHMARK(BM_CustomCounter)->Range(8, 8<<10);
BENCHMARK_MAIN();

성능 비교

정렬 알고리즘 비교

테스트: 100,000개 요소

알고리즘평균 시간최악 시간 복잡도안정성메모리
std::sort~8msO(N log N)O(log N)
std::stable_sort~12msO(N log² N)O(N)
std::partial_sort~5ms (상위 10%)O(N log K)O(1)
std::nth_element~2ms (중앙값)O(N)O(1)

컨테이너 삽입 비교

테스트: 10,000개 요소 삽입

방법시간배속
vector (reserve 없음)150us1x
vector (reserve 있음)50us3x
list200us0.75x
deque100us1.5x
결론: reserve3배 개선

실무 사례

사례 1: 해시 함수 비교

#include <benchmark/benchmark.h>
#include <string>
#include <functional>
static void BM_StdHash(benchmark::State& state) {
    std::string str = "hello world";
    std::hash<std::string> hasher;
    
    for (auto _ : state) {
        size_t hash = hasher(str);
        benchmark::DoNotOptimize(hash);
    }
}
BENCHMARK(BM_StdHash);
static void BM_CustomHash(benchmark::State& state) {
    std::string str = "hello world";
    
    for (auto _ : state) {
        size_t hash = 0;
        for (char c : str) {
            hash = hash * 31 + c;
        }
        benchmark::DoNotOptimize(hash);
    }
}
BENCHMARK(BM_CustomHash);
BENCHMARK_MAIN();

사례 2: JSON 파싱 성능

#include <benchmark/benchmark.h>
#include <nlohmann/json.hpp>
#include <string>
static void BM_JsonParse(benchmark::State& state) {
    std::string json_str = R"({"name":"John","age":30,"city":"New York"})";
    
    for (auto _ : state) {
        auto json = nlohmann::json::parse(json_str);
        benchmark::DoNotOptimize(json);
    }
}
BENCHMARK(BM_JsonParse);
static void BM_JsonSerialize(benchmark::State& state) {
    nlohmann::json json = {{"name", "John"}, {"age", 30}, {"city", "New York"}};
    
    for (auto _ : state) {
        std::string str = json.dump();
        benchmark::DoNotOptimize(str);
    }
}
BENCHMARK(BM_JsonSerialize);
BENCHMARK_MAIN();

사례 3: 메모리 할당 전략

#include <benchmark/benchmark.h>
#include <vector>
#include <memory>
static void BM_RawPointer(benchmark::State& state) {
    for (auto _ : state) {
        int* ptr = new int[state.range(0)];
        benchmark::DoNotOptimize(ptr);
        delete[] ptr;
    }
}
BENCHMARK(BM_RawPointer)->Range(8, 8<<10);
static void BM_UniquePtr(benchmark::State& state) {
    for (auto _ : state) {
        auto ptr = std::make_unique<int[]>(state.range(0));
        benchmark::DoNotOptimize(ptr.get());
    }
}
BENCHMARK(BM_UniquePtr)->Range(8, 8<<10);
static void BM_Vector(benchmark::State& state) {
    for (auto _ : state) {
        std::vector<int> v(state.range(0));
        benchmark::DoNotOptimize(v.data());
    }
}
BENCHMARK(BM_Vector)->Range(8, 8<<10);
BENCHMARK_MAIN();

트러블슈팅

문제 1: 컴파일러 최적화로 코드 제거

증상: 벤치마크 시간이 0에 가까움

// ❌ 최적화로 제거
static void BM_Bad(benchmark::State& state) {
    for (auto _ : state) {
        int x = 42;  // 컴파일러가 제거
    }
}
// ✅ 최적화 방지
static void BM_Good(benchmark::State& state) {
    for (auto _ : state) {
        int x = 42;
        benchmark::DoNotOptimize(x);  // 최적화 방지
    }
}

문제 2: 캐시 효과

증상: 첫 실행이 느리고 이후 빨라짐

// ❌ 캐시 효과
auto time1 = benchmark(f);  // 캐시 미스 (느림)
auto time2 = benchmark(f);  // 캐시 히트 (빠름)
// ✅ 워밍업
for (int i = 0; i < 10; ++i) f();
auto time = benchmark(f);

문제 3: 측정 오버헤드

증상: 매우 짧은 작업의 측정 시간이 부정확

// ❌ 측정 오버헤드 > 실제 시간
auto time = benchmark([]() {
    int x = 1 + 1;  // 너무 짧음
});
// ✅ 여러 번 반복 후 평균
auto time = benchmark([]() {
    for (int i = 0; i < 1000; ++i) {
        int x = 1 + 1;
    }
}, 100) / 1000;

문제 4: 백그라운드 프로세스

증상: 측정 시간이 불안정

// ❌ 다른 프로세스 실행 중
// 브라우저, IDE, 백그라운드 서비스 등
// ✅ 격리 실행
// 1. 다른 프로세스 종료
// 2. CPU 고정 (Linux)
taskset -c 0 ./bench
// 3. 우선순위 높이기
nice -n -20 ./bench

마무리

C++ 벤치마킹성능 최적화의 핵심 도구입니다.

핵심 요약

  1. 기본 측정
    • std::chrono::high_resolution_clock
    • duration_cast<microseconds>
  2. 정확한 측정
    • 워밍업 (10-100회)
    • 반복 실행 (100-1000회)
    • 통계 분석 (평균, 중앙값, 표준편차)
  3. 최적화 방지
    • volatile 또는 benchmark::DoNotOptimize
    • 결과 사용
  4. Google Benchmark
    • 전문적인 벤치마크 프레임워크
    • 자동 반복, 통계, 비교

벤치마킹 체크리스트

항목권장 사항이유
워밍업10-100회 실행CPU 캐시, 분기 예측 최적화
반복 횟수100-1000회통계적 유의성 확보
최적화 방지volatile 또는 DoNotOptimize컴파일러 최적화 제거 방지
격리 실행다른 프로세스 종료노이즈 최소화
CPU 고정taskset (Linux)코어 이동 방지
릴리즈 빌드-O3 -DNDEBUG실제 성능 측정

통계 지표

지표의미활용
평균 (Mean)전체 평균 시간일반적인 성능
중앙값 (Median)중간 값이상치 제거
최소 (Min)최고 성능최적 조건
최대 (Max)최악 성능최악 케이스
표준편차 (StdDev)변동성안정성 평가
백분위수 (P95, P99)상위 5%, 1%SLA 기준

코드 예제 치트시트

// 기본 측정
auto start = std::chrono::high_resolution_clock::now();
// 코드 실행
auto end = std::chrono::high_resolution_clock::now();
auto duration = std::chrono::duration_cast<std::chrono::microseconds>(end - start);
// 워밍업 + 반복
for (int i = 0; i < 10; ++i) f();  // 워밍업
BenchmarkStats stats;
for (int i = 0; i < 100; ++i) {
    auto time = benchmark(f);
    stats.addSample(time);
}
stats.printStats();
// Google Benchmark
static void BM_Function(benchmark::State& state) {
    for (auto _ : state) {
        // 코드 실행
    }
}
BENCHMARK(BM_Function);
BENCHMARK_MAIN();

다음 단계

참고 자료

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「C++ Benchmarking | chrono·Google Benchmark 성능 측정 완벽 정리」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]
sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)
  • 불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
  • 결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
  • 경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
  • 백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역운영 관점 질문
관측성요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「C++ Benchmarking | chrono·Google Benchmark 성능 측정 완벽 정리」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

  1. 입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
  2. 핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
  3. 실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
  4. 호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
  5. 부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.
handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상가능 원인조치
간헐적 실패레이스, 타임아웃, 외부 의존성, DNS최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패환경 변수, 권한, 플랫폼 차이, lockfileCI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치프로필·시크릿·기본값, 리전스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치비멱등 재시도, 부분 쓰기, 캐시 무효화 누락멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git addgit commitgit pushnpm run deploy 순서를 권장합니다.


자주 묻는 질문 (FAQ)

Q. 이 내용을 실무에서 언제 쓰나요?

A. C++ 성능 벤치마킹: chrono 고해상도 시계로 측정하고 워밍업·반복 실행·통계 분석으로 신뢰할 수 있는 수치를 얻는 실무 절차를 설명합니다. C++·benchmarking·performance 중심으로 설명합니… 실무에서는 위 본문의 예제와 선택 가이드를 참고해 적용하면 됩니다.

Q. 선행으로 읽으면 좋은 글은?

A. 각 글 하단의 이전 글 또는 관련 글 링크를 따라가면 순서대로 배울 수 있습니다. C++ 시리즈 목차에서 전체 흐름을 확인할 수 있습니다.

Q. 더 깊이 공부하려면?

A. cppreference와 해당 라이브러리 공식 문서를 참고하세요. 글 말미의 참고 자료 링크도 활용하면 좋습니다.


같이 보면 좋은 글 (내부 링크)

이 주제와 연결되는 다른 글입니다.


이 글에서 다루는 키워드 (관련 검색어)

C++, benchmarking, performance, testing, tools, Google Benchmark 등으로 검색하시면 이 글이 도움이 됩니다.