정규식이 매우 느려요

재컴파일 비용·과도한 백트래킹·잘못된 패턴이 원인일 수 있습니다. regex_constants로 문법을 고정하고, 부분 매칭 대신 앵커·전체 문자열 매칭을 검토하세요.

sregex_iterator와 regex_search 반복의 차이는?

반복자는 연속 매칭을 편하게 돌려줍니다. 오버랩이 필요 없는지, 빈 매치가 무한 루프를 만들지 않는지 항상 확인하세요.

UTF-8 문자열에 regex를 쓰면 글자 단위가 깨져요

std::regex는 유니코드 인식이 제한적입니다. 코드 포인트 단위 처리가 필요하면 전용 라이브러리나 정규식 엔진을 검토하세요.

사용자 입력 정규식을 쓰면 위험한가요?

ReDoS(정규식 DoS) 위험이 있습니다. 타임아웃·패턴 길이 제한·화이트리스트를 두고, 서비스에서는 신중한 검증이 필요합니다.

C++ Regex Iterator | '정규식 반복자' 가이드

2026년 3월 12일 · 14분 읽기 · 수정 2026년 3월 30일 중급 튜토리얼

이 글의 핵심

C++ Regex Iterator - "정규식 반복자" 가이드. C++ Regex Iterator의 regex_iterator란?, 기본 사용, 실전 예시를 실전 코드와 함께 설명합니다.

regex_iterator란?

모든 매치 순회 (C++11)

#include <regex>

std::string text = "C++ 11, C++ 14, C++ 17";
std::regex pattern{R"(\d+)"};

auto begin = std::sregex_iterator(text.begin(), text.end(), pattern);
auto end = std::sregex_iterator();

for (auto it = begin; it != end; ++it) {
    std::cout << it->str() << std::endl;
}
// 11
// 14
// 17

기본 사용

#include <regex>
#include <string>

std::string text = "abc 123 def 456";
std::regex pattern{R"(\d+)"};

// 반복자 생성
auto begin = std::sregex_iterator(text.begin(), text.end(), pattern);
auto end = std::sregex_iterator();

// 순회
for (auto it = begin; it != end; ++it) {
    std::smatch match = *it;
    std::cout << match.str() << std::endl;
}

실전 예시

예시 1: 단어 추출

#include <regex>
#include <vector>

std::vector<std::string> extractWords(const std::string& text) {
    std::regex pattern{R"(\b\w+\b)"};
    
    auto begin = std::sregex_iterator(text.begin(), text.end(), pattern);
    auto end = std::sregex_iterator();
    
    std::vector<std::string> words;
    for (auto it = begin; it != end; ++it) {
        words.push_back(it->str());
    }
    
    return words;
}

int main() {
    auto words = extractWords("Hello, World! C++ 2026");
    
    for (const auto& word : words) {
        std::cout << word << std::endl;
    }
    // Hello
    // World
    // C
    // 2026
}

예시 2: 캡처 그룹

#include <regex>

int main() {
    std::string text = "[email protected], [email protected]";
    std::regex pattern{R"((\w+)@(\w+\.\w+))"};
    
    auto begin = std::sregex_iterator(text.begin(), text.end(), pattern);
    auto end = std::sregex_iterator();
    
    for (auto it = begin; it != end; ++it) {
        std::smatch match = *it;
        std::cout << "이메일: " << match[0] << std::endl;
        std::cout << "사용자: " << match[1] << std::endl;
        std::cout << "도메인: " << match[2] << std::endl;
        std::cout << std::endl;
    }
}

예시 3: URL 파싱

#include <regex>

struct URL {
    std::string protocol;
    std::string host;
    std::string path;
};

std::vector<URL> extractURLs(const std::string& text) {
    std::regex pattern{R"((https?)://([^/]+)(/[^\s]*))"};
    
    auto begin = std::sregex_iterator(text.begin(), text.end(), pattern);
    auto end = std::sregex_iterator();
    
    std::vector<URL> urls;
    for (auto it = begin; it != end; ++it) {
        std::smatch match = *it;
        urls.push_back({
            match[1].str(),  // protocol
            match[2].str(),  // host
            match[3].str()   // path
        });
    }
    
    return urls;
}

예시 4: 토큰 분할

#include <regex>

std::vector<std::string> tokenize(const std::string& text) {
    std::regex pattern{R"(\s+)"};  // 공백
    
    std::sregex_token_iterator begin(text.begin(), text.end(), pattern, -1);
    std::sregex_token_iterator end;
    
    return {begin, end};
}

int main() {
    auto tokens = tokenize("Hello   World  C++");
    
    for (const auto& token : tokens) {
        std::cout << "[" << token << "]" << std::endl;
    }
    // [Hello]
    // [World]
    // [C++]
}

regex_token_iterator

std::string text = "a,b,c,d";
std::regex pattern{","};

// -1: 구분자 제외
std::sregex_token_iterator begin(text.begin(), text.end(), pattern, -1);
std::sregex_token_iterator end;

for (auto it = begin; it != end; ++it) {
    std::cout << *it << std::endl;
}
// a
// b
// c
// d

자주 발생하는 문제

문제 1: 반복자 수명

getIterator 함수의 구현 예제입니다.

// ❌ 댕글링
auto getIterator() {
    std::string text = "hello 123";
    std::regex pattern{R"(\d+)"};
    return std::sregex_iterator(text.begin(), text.end(), pattern);
    // text 소멸
}

// ✅ 문자열 수명 보장
std::string text = "hello 123";
auto it = std::sregex_iterator(text.begin(), text.end(), pattern);

문제 2: 성능

// regex는 느림
std::regex pattern{R"(\d+)"};

// ❌ 매번 컴파일
for (const auto& text : texts) {
    std::regex pattern{R"(\d+)"};  // 반복 컴파일
    std::regex_search(text, pattern);
}

// ✅ 한 번만 컴파일
std::regex pattern{R"(\d+)"};
for (const auto& text : texts) {
    std::regex_search(text, pattern);
}

문제 3: 빈 매치

std::string text = "hello";
std::regex pattern{R"(\d*)"};  // 0개 이상

// 빈 매치 가능
auto begin = std::sregex_iterator(text.begin(), text.end(), pattern);
auto end = std::sregex_iterator();

for (auto it = begin; it != end; ++it) {
    if (!it->str().empty()) {
        std::cout << it->str() << std::endl;
    }
}

문제 4: 그룹 인덱스

std::string text = "[email protected]";
std::regex pattern{R"((\w+)@(\w+)\.(\w+))"};

std::smatch matches;
if (std::regex_match(text, matches, pattern)) {
    // matches[0]: 전체 매치
    // matches[1]: 첫 번째 그룹
    // matches[2]: 두 번째 그룹
    // ...
}

활용 패턴

// 1. 검증
bool isValid = std::regex_match(text, pattern);

// 2. 검색
std::smatch matches;
std::regex_search(text, matches, pattern);

// 3. 치환
auto result = std::regex_replace(text, pattern, replacement);

// 4. 모든 매치
auto it = std::sregex_iterator(begin, end, pattern);

정규식 반복 매칭의 동작

std::regex_search는 한 번에 한 구간만 찾습니다. 문자열 안의 모든 비중첩 매치를 순회하려면 std::regex_iterator(문자 시퀀스용) / std::sregex_iterator(std::string 반복자용)를 씁니다. 반복자는 내부적으로 이전 매치 끝 다음 위치부터 다시 regex_search를 호출하는 패턴으로 구현됩니다.

전역 매치가 아님: 기본 반복자는 부분 일치를 나열합니다. 전체 문자열이 패턴과 정확히 일치하는지 보려면 regex_match를 쓰세요.
중첩·겹침: 표준 반복자는 일반적으로 다음 검색 시작점을 매치 끝으로 옮기므로, 겹치는 패턴(예: a 위 aa)은 요구사항에 따라 별도 설계가 필요합니다.

`sregex_iterator` 타입 계열

sregex_iterator: std::string::const_iterator 범위 + std::regex로 초기화.
cregex_iterator: const char* 범위용.
wsregex_iterator: std::wstring용.

종료 반복자는 std::sregex_iterator() 기본 생성으로 두는 관용구가 널리 쓰입니다.

C/C++ 예제 코드입니다.

auto begin = std::sregex_iterator(text.begin(), text.end(), pattern);
auto end   = std::sregex_iterator();
for (auto it = begin; it != end; ++it) {
    const std::smatch& m = *it;
    // m.ready(), m.size(), m.str(n)
}

실전: 로그 파싱 예시

아래는 타임스탬프·레벨·메시지를 한 줄에서 뽑는 예시입니다(패턴은 로그 포맷에 맞게 조정).

#include <regex>
#include <string>
#include <iostream>
#include <vector>

struct LogLine {
    std::string timestamp;
    std::string level;
    std::string message;
};

// 예: "2026-03-30 12:00:00 ERROR something failed"
bool parseLogLine(const std::string& line, LogLine& out) {
    static const std::regex re(
        R"((\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) (\w+) (.*))");
    std::smatch m;
    if (!std::regex_match(line, m, re)) {
        return false;
    }
    out.timestamp = m[1].str();
    out.level = m[2].str();
    out.message = m[3].str();
    return true;
}

// 여러 줄에서 특정 레벨만 모으기
std::vector<std::string> extractErrors(const std::string& text) {
    std::regex levelLine(R"(\b(ERROR|CRITICAL)\b.*)");
    auto begin = std::sregex_iterator(text.begin(), text.end(), levelLine);
    auto end = std::sregex_iterator();
    std::vector<std::string> errors;
    for (auto it = begin; it != end; ++it) {
        errors.push_back(it->str());
    }
    return errors;
}

팁: 한 파일을 통째로 string에 올린 뒤 줄 단위로 나누면 regex_iterator는 “줄 안의 여러 토큰”에, 줄 단위 루프는 “레코드 경계”에 쓰기 좋습니다.

성능 주의사항

컴파일 비용: std::regex 생성자는 패턴을 컴파일합니다. 루프 밖에서 한 번만 만들고 재사용하세요.
엔진: GCC/LLVM의 std::regex는 매우 큰 입력이나 복잡한 패턴에서 기대보다 느릴 수 있습니다. 핫 경로면 프로파일링 후 Boost.Regex, RE2 스타일 라이브러리, 또는 수동 파서를 검토합니다.
할당: smatch/sregex_iterator 사용은 내부적으로 부분 문자열을 만들 수 있습니다. 대량 로그에서는 string_view 기반 커스텀 스캐너나 고정 버퍼 파서가 더 나을 수 있습니다.
std::regex_constants::optimize: 구현에 따라 최적화를 힌트할 수 있으나, 항상 빨라진다는 보장은 없음—측정이 우선입니다.

FAQ

Q1: Regex는?

A: 정규 표현식 (C++11).

Q2: 반복자?

A: regex_iterator 모든 매치.

Q3: 캡처 그룹?

A: () 사용. matches[N].

Q4: 성능?

A: 느림. 컴파일 재사용.

Q5: 토큰 분할?

A: regex_token_iterator.

Q6: 학습 리소스는?

“Mastering Regular Expressions”
cppreference.com
“C++ Primer”

같이 보면 좋은 글 (내부 링크)

이 주제와 연결되는 다른 글입니다.

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「C++ Regex Iterator | ‘정규식 반복자’ 가이드」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]

sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)

불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역	운영 관점 질문
관측성	요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성	입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성	재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능	캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포	롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량	피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「C++ Regex Iterator | ‘정규식 반복자’ 가이드」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.

handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상	가능 원인	조치
간헐적 실패	레이스, 타임아웃, 외부 의존성, DNS	최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하	N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스	프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가	캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납	상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패	환경 변수, 권한, 플랫폼 차이, lockfile	CI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치	프로필·시크릿·기본값, 리전	스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치	비멱등 재시도, 부분 쓰기, 캐시 무효화 누락	멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git add → git commit → git push 후 npm run deploy 순서를 권장합니다.

이 글에서 다루는 키워드 (관련 검색어)

C++, regex, iterator, match, C++11 등으로 검색하시면 이 글이 도움이 됩니다.

이 글이 도움이 되셨나요?

여러분의 피드백은 더 나은 콘텐츠를 만드는 데 도움이 됩니다

문제가 있거나 개선 제안이 있으시면 연락처로 알려주세요.

Keyboard Shortcuts

C++ Regex Iterator | '정규식 반복자' 가이드

이 글의 핵심

regex_iterator란?

기본 사용

실전 예시

예시 1: 단어 추출

예시 2: 캡처 그룹

예시 3: URL 파싱

예시 4: 토큰 분할

regex_token_iterator

자주 발생하는 문제

문제 1: 반복자 수명

문제 2: 성능

문제 3: 빈 매치

문제 4: 그룹 인덱스

활용 패턴

정규식 반복 매칭의 동작

`sregex_iterator` 타입 계열

실전: 로그 파싱 예시

성능 주의사항

FAQ

Q1: Regex는?

Q2: 반복자?

Q3: 캡처 그룹?

Q4: 성능?

Q5: 토큰 분할?

Q6: 학습 리소스는?

같이 보면 좋은 글 (내부 링크)

관련 글

심화 부록: 구현·운영 관점

내부 동작과 핵심 메커니즘

프로덕션 운영 패턴

확장 예시: 엔드투엔드 미니 시나리오

문제 해결(Troubleshooting)

이 글에서 다루는 키워드 (관련 검색어)

이 글이 도움이 되셨나요?

Keyboard Shortcuts

이 글의 핵심

regex_iterator란?

기본 사용

실전 예시

예시 1: 단어 추출

예시 2: 캡처 그룹

예시 3: URL 파싱

예시 4: 토큰 분할

regex_token_iterator

자주 발생하는 문제

문제 1: 반복자 수명

문제 2: 성능

문제 3: 빈 매치

문제 4: 그룹 인덱스

활용 패턴

정규식 반복 매칭의 동작

sregex_iterator 타입 계열

실전: 로그 파싱 예시

성능 주의사항

FAQ

Q1: Regex는?

Q2: 반복자?

Q3: 캡처 그룹?

Q4: 성능?

Q5: 토큰 분할?

Q6: 학습 리소스는?

같이 보면 좋은 글 (내부 링크)

관련 글

심화 부록: 구현·운영 관점

내부 동작과 핵심 메커니즘

프로덕션 운영 패턴

확장 예시: 엔드투엔드 미니 시나리오

문제 해결(Troubleshooting)

이 글에서 다루는 키워드 (관련 검색어)

이 글이 도움이 되셨나요?

`sregex_iterator` 타입 계열