본문으로 건너뛰기
Previous
Next
C++ 스톱워치와 벤치마크 | chrono으로 실행 시간 측정하기

C++ 스톱워치와 벤치마크 | chrono으로 실행 시간 측정하기

C++ 스톱워치와 벤치마크 | chrono으로 실행 시간 측정하기

이 글의 핵심

C++ 스톱워치와 벤치마크: chrono으로 실행 시간 측정하기. C++에서 시간 측정·같이 보면 좋은 글 (내부 링크).

C++에서 시간 측정

실행 시간을 재려면 std::chrono의 시계와 duration을 쓰면 됩니다. high_resolution_clock이 보통 가장 짧은 단위(나노초 수준)를 제공하므로, 짧은 구간을 잴 때 적합합니다. 측정한 duration을 초·밀리초로 바꿀 때는 시간 변환을 참고하면 됩니다. 실무에서는 함수 한 번 호출 시간, 루프 N회 평균, 로그 구간 타이밍 등에 자주 씁니다.

간단한 스톱워치

#include <chrono>
#include <iostream>
class Stopwatch {
    using Clock = std::chrono::high_resolution_clock;
    Clock::time_point start_;
public:
    Stopwatch() : start_(Clock::now()) {}
    void reset() { start_ = Clock::now(); }
    double elapsed_ms() const {
        auto end = Clock::now();
        return std::chrono::duration<double, std::milli>(end - start_).count();
    }
};
int main() {
    Stopwatch sw;
    volatile int x = 0;
    for (int i = 0; i < 1000000; ++i) x += i;
    std::cout << "elapsed: " << sw.elapsed_ms() << " ms\n";
    return 0;
}

실무 팁: steady_clock을 쓰면 시스템 시계 보정의 영향을 받지 않아, 경과 시간만 측정할 때 더 적합할 수 있습니다. high_resolution_clock은 구현에 따라 steady_clock의 별칭일 수도 있고 아닐 수도 있으므로, “monotonic이 꼭 필요하다”면 steady_clock을 명시하는 것이 좋습니다.

RAII 스타일 구간 측정

생성자에서 시작, 소멸자에서 끝을 재서 구간 전체 시간을 잡는 패턴입니다. 예외가 나도 소멸자가 호출되므로 안전합니다.

class ScopedTimer {
    using Clock = std::chrono::steady_clock;
    Clock::time_point start_;
    const char* name_;
public:
    explicit ScopedTimer(const char* name = nullptr) : start_(Clock::now()), name_(name) {}
    ~ScopedTimer() {
        auto ms = std::chrono::duration<double, std::milli>(Clock::now() - start_).count();
        if (name_) std::cout << "[" << name_ << "] ";
        std::cout << ms << " ms\n";
    }
};
void process() {
    ScopedTimer t("process");
    // ....작업 ...
}  // 소멸 시 자동으로 경과 시간 출력

벤치마크: 여러 번 돌리고 해석

한 번만 재면 캐시 상태·스케줄링에 따라 편차가 큽니다. 여러 번 돌린 뒤 평균·중앙값·백분위를 보는 것이 좋습니다.

#include <chrono>
#include <vector>
#include <algorithm>
#include <iostream>
#include <numeric>
#include <cmath>
template<typename F>
struct BenchmarkResult {
    double min, max, mean, median, stddev;
    std::vector<double> samples;
};
template<typename F>
BenchmarkResult<F> benchmark(F&& f, int runs = 100) {
    std::vector<double> times;
    times.reserve(runs);
    
    // 워밍업 (캐시, JIT 등)
    for (int i = 0; i < 3; ++i) f();
    
    // 실제 측정
    for (int i = 0; i < runs; ++i) {
        auto start = std::chrono::steady_clock::now();
        f();
        auto end = std::chrono::steady_clock::now();
        times.push_back(std::chrono::duration<double, std::milli>(end - start).count());
    }
    
    std::sort(times.begin(), times.end());
    
    BenchmarkResult<F> result;
    result.samples = times;
    result.min = times.front();
    result.max = times.back();
    result.median = times[runs / 2];
    result.mean = std::accumulate(times.begin(), times.end(), 0.0) / runs;
    
    // 표준편차 계산
    double variance = 0.0;
    for (double t : times) {
        variance += (t - result.mean) * (t - result.mean);
    }
    result.stddev = std::sqrt(variance / runs);
    
    return result;
}
int main() {
    volatile int sink = 0;
    auto result = benchmark([&sink]() {
        for (int i = 0; i < 1000000; ++i) sink += i;
    }, 100);
    
    std::cout << "Min:    " << result.min << " ms\n";
    std::cout << "Max:    " << result.max << " ms\n";
    std::cout << "Mean:   " << result.mean << " ms\n";
    std::cout << "Median: " << result.median << " ms\n";
    std::cout << "StdDev: " << result.stddev << " ms\n";
    
    return 0;
}

통계 해석:

  • Min: 최상의 경우 (캐시 히트, CPU 할당 최적)
  • Max: 최악의 경우 (캐시 미스, 컨텍스트 스위칭)
  • Mean: 평균 (이상치에 민감)
  • Median: 중앙값 (이상치에 덜 민감, 일반적 성능)
  • StdDev: 표준편차 (변동성, 낮을수록 안정적) 실무 권장:
  • 중앙값(Median) 을 주로 보고, 표준편차가 크면 측정 횟수를 늘리거나 환경을 안정화하세요.
  • 워밍업: 처음 몇 번은 캐시가 차가워서 느릴 수 있으므로, 워밍업 후 측정합니다.
// 백분위 계산 (P95, P99)
double percentile(const std::vector<double>& sorted_times, double p) {
    int idx = static_cast<int>(sorted_times.size() * p);
    return sorted_times[std::min(idx, (int)sorted_times.size() - 1)];
}
auto result = benchmark(f, 100);
std::cout << "P95: " << percentile(result.samples, 0.95) << " ms\n";
std::cout << "P99: " << percentile(result.samples, 0.99) << " ms\n";

최적화 제거 방지

컴파일러가 “결과를 쓰지 않는다”고 판단하면 루프나 호출 자체를 제거할 수 있습니다. 벤치마크할 코드가 실제로 실행되도록 하려면:

  • 결과를 사용: volatile에 쓰거나, 결과를 반환해 외부에서 사용하게 만듦.
  • 컴파일러 장벽: asm volatile("")로 최적화 방지.
  • 도구 사용: Google Benchmark, nanobench 등은 반복 횟수 조절·통계 출력을 해 주고, 최적화 제거를 줄이는 패턴을 적용해 둠.
// ❌ 나쁜 예: 최적화 시 제거될 수 있음
void bad_bench() {
    int x = 0;
    for (int i = 0; i < 1000000; ++i) x += i;
    // x를 사용하지 않으므로 루프 전체가 제거될 수 있음
}
// ✅ 나은 예 1: 결과를 volatile에 저장
volatile int sink = 0;
void better_bench() {
    int x = 0;
    for (int i = 0; i < 1000000; ++i) x += i;
    sink = x;  // volatile 쓰기는 side effect
}
// ✅ 나은 예 2: 컴파일러 장벽 사용
void best_bench() {
    int x = 0;
    for (int i = 0; i < 1000000; ++i) x += i;
    asm volatile("" : "+r"(x) : :);  // x를 사용했다고 컴파일러에 알림
}

실무 예시 - Google Benchmark 스타일:

// DoNotOptimize: 값이 최적화되지 않도록 보장
template<typename T>
void DoNotOptimize(T const& value) {
    asm volatile("" : : "r,m"(value) : "memory");
}
// ClobberMemory: 메모리 상태를 변경했다고 컴파일러에 알림
void ClobberMemory() {
    asm volatile("" : : : "memory");
}
// 사용
void benchmark_function() {
    int result = expensive_computation();
    DoNotOptimize(result);  // 결과가 사용되었다고 표시
}

주의사항: volatile은 성능 오버헤드가 있으므로, 측정 대상 코드 내부가 아닌 결과를 저장할 때만 사용하세요.

// ❌ 루프 내부에서 volatile 사용 (느림)
volatile int x = 0;
for (int i = 0; i < 1000000; ++i) {
    x += i;  // 매번 메모리 쓰기
}
// ✅ 루프 외부에서 volatile 사용
int x = 0;
for (int i = 0; i < 1000000; ++i) {
    x += i;  // 레지스터에서 계산
}
volatile int sink = x;  // 한 번만 메모리 쓰기

벤치마크 모범 사례

1. 충분한 반복 횟수

// ❌ 너무 적은 반복
auto result = benchmark(f, 5);  // 편차가 클 수 있음
// ✅ 충분한 반복
auto result = benchmark(f, 100);  // 통계적으로 의미 있음

권장 반복 횟수:

  • 빠른 함수 (< 1ms): 1000회 이상
  • 보통 함수 (1-100ms): 100회
  • 느린 함수 (> 100ms): 10-30회

2. 워밍업

// ✅ 워밍업으로 캐시 안정화
for (int i = 0; i < 10; ++i) {
    f();  // 캐시 워밍업
}
// 실제 측정
for (int i = 0; i < 100; ++i) {
    auto start = steady_clock::now();
    f();
    auto elapsed = steady_clock::now() - start;
    // ....기록 ...
}

3. 이상치 제거

// 이상치 제거 (상위/하위 10% 제거)
std::vector<double> times = /* ....*/;
std::sort(times.begin(), times.end());
int trim = times.size() / 10;
std::vector<double> trimmed(times.begin() + trim, times.end() - trim);
double mean = std::accumulate(trimmed.begin(), trimmed.end(), 0.0) / trimmed.size();

4. 환경 안정화

// CPU 주파수 고정 (Linux)
// sudo cpupower frequency-set --governor performance
// 프로세스 우선순위 높이기
// nice -n -20 ./benchmark
// CPU 코어 고정
#include <pthread.h>
void pin_to_core(int core_id) {
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(core_id, &cpuset);
    pthread_setaffinity_np(pthread_self(), sizeof(cpu_set_t), &cpuset);
}

자주 발생하는 문제

1. 시계 선택 오류

// ❌ system_clock으로 경과 시간 측정
auto start = system_clock::now();
// ....시스템 시간 변경 가능 ...
auto elapsed = system_clock::now() - start;  // 음수 가능!
// ✅ steady_clock 사용
auto start = steady_clock::now();
auto elapsed = steady_clock::now() - start;  // 항상 양수

권장: wall-clock이 필요하면 system_clock, 경과 시간만 필요하면 steady_clock을 쓰세요. high_resolution_clock은 해상도는 높지만 steady가 보장되지 않을 수 있습니다.

2. 한 번만 측정

// ❌ 한 번만 측정
auto start = steady_clock::now();
f();
auto elapsed = steady_clock::now() - start;
std::cout << "Time: " << elapsed.count() << "\n";  // 편차 큼
// ✅ 여러 번 측정 후 통계
auto result = benchmark(f, 100);
std::cout << "Median: " << result.median << " ms\n";
std::cout << "StdDev: " << result.stddev << " ms\n";

왜 중요한가?: 첫 실행은 캐시가 차가워서 느리고, 이후 실행은 캐시 히트로 빠를 수 있습니다. 여러 번 측정해 중앙값을 보는 것이 안정적입니다.

3. 최적화 제거

// ❌ 결과를 사용하지 않아 최적화로 제거
int compute() {
    int sum = 0;
    for (int i = 0; i < 1000000; ++i) sum += i;
    return sum;
}
void bench() {
    compute();  // 반환값을 사용하지 않으면 제거될 수 있음
}
// ✅ 결과를 사용
volatile int sink;
void bench() {
    sink = compute();  // 결과 사용
}

실무 패턴

패턴 1: 함수별 성능 프로파일링

// 여러 함수의 성능을 비교
struct ProfileResult {
    std::string name;
    double median_ms;
};
std::vector<ProfileResult> profile_functions() {
    std::vector<ProfileResult> results;
    
    results.push_back({"Algorithm A", benchmark(algorithm_a, 100).median});
    results.push_back({"Algorithm B", benchmark(algorithm_b, 100).median});
    results.push_back({"Algorithm C", benchmark(algorithm_c, 100).median});
    
    std::sort(results.begin(), results.end(), 
               { return a.median_ms < b.median_ms; });
    
    for (const auto& r : results) {
        std::cout << r.name << ": " << r.median_ms << " ms\n";
    }
    
    return results;
}

패턴 2: 입력 크기별 성능 측정

// 알고리즘의 시간 복잡도 확인
void measure_complexity() {
    std::vector<int> sizes = {100, 1000, 10000, 100000};
    
    for (int n : sizes) {
        auto result = benchmark([n]() {
            std::vector<int> v(n);
            std::sort(v.begin(), v.end());
        }, 50);
        
        std::cout << "n=" << n << ": " << result.median << " ms\n";
    }
}

패턴 3: 비교 벤치마크

// 두 구현의 성능 비교
void compare_implementations() {
    auto result_old = benchmark(old_implementation, 100);
    auto result_new = benchmark(new_implementation, 100);
    
    double speedup = result_old.median / result_new.median;
    
    std::cout << "Old: " << result_old.median << " ms\n";
    std::cout << "New: " << result_new.median << " ms\n";
    std::cout << "Speedup: " << speedup << "x\n";
    
    if (speedup > 1.0) {
        std::cout << "New is " << (speedup - 1.0) * 100 << "% faster\n";
    } else {
        std::cout << "New is " << (1.0 - speedup) * 100 << "% slower\n";
    }
}

정리

항목설명
도구steady_clock / high_resolution_clock, duration
패턴Stopwatch 클래스, RAII ScopedTimer, N회 측정 후 통계
통계평균, 중앙값, 표준편차, 백분위
주의최적화 제거 방지, 워밍업, 환경 안정화

FAQ

Q: 몇 번 측정해야 하나요? A: 함수 실행 시간에 따라 다릅니다. 빠른 함수 (< 1ms)는 1000회 이상, 보통 함수 (1-100ms)는 100회, 느린 함수 (> 100ms)는 10-30회 측정하세요. Q: 평균과 중앙값 중 어느 것을 봐야 하나요? A: 중앙값(Median)을 주로 보세요. 평균은 이상치에 민감하지만, 중앙값은 이상치에 덜 민감하여 일반적인 성능을 더 잘 나타냅니다. Q: 표준편차가 크면 어떻게 하나요? A: 측정 환경이 불안정하다는 의미입니다. 측정 횟수를 늘리거나, 다른 프로세스를 종료하거나, CPU 주파수를 고정하세요. Q: 최적화 제거를 어떻게 방지하나요? A: 결과를 volatile 변수에 저장하거나, asm volatile로 컴파일러 장벽을 두거나, Google Benchmark 같은 전문 라이브러리를 사용하세요. Q: steady_clock과 high_resolution_clock 중 어느 것을 사용하나요? A: steady_clock을 권장합니다. 단조 증가가 보장되어 시스템 시간 변경에 영향받지 않습니다. high_resolution_clock은 구현에 따라 steady_clock의 별칭일 수 있습니다. 관련 글: duration 시간 간격, 시간 변환 duration_cast, time_point, chrono 개요. 한 줄 요약: chrono으로 스톱워치를 만들고, 벤치마크는 여러 번 측정·통계 해석하며 최적화 제거를 고려하면 됩니다.

같이 보면 좋은 글 (내부 링크)

이 주제와 연결되는 다른 글입니다.

관련 글

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「C++ 스톱워치와 벤치마크 | chrono으로 실행 시간 측정하기」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]
sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)
  • 불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
  • 결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
  • 경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
  • 백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역운영 관점 질문
관측성요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「C++ 스톱워치와 벤치마크 | chrono으로 실행 시간 측정하기」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

  1. 입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
  2. 핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
  3. 실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
  4. 호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
  5. 부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.
handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상가능 원인조치
간헐적 실패레이스, 타임아웃, 외부 의존성, DNS최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패환경 변수, 권한, 플랫폼 차이, lockfileCI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치프로필·시크릿·기본값, 리전스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치비멱등 재시도, 부분 쓰기, 캐시 무효화 누락멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git addgit commitgit pushnpm run deploy 순서를 권장합니다.


이 글에서 다루는 키워드 (관련 검색어)

C++, chrono, benchmark, stopwatch, performance, timing 등으로 검색하시면 이 글이 도움이 됩니다.