regex_match와 regex_search는 언제 쓰나요?

전체 문자열이 패턴과 정확히 일치하는지 보려면 regex_match를, 그 안에 부분 구간이 있는지만 확인하려면 regex_search를 사용합니다.

패턴 문자열에 R"(...)"(raw string)을 쓰는 이유는 무엇인가요?

백슬래시 이스케이프를 줄이고 읽기 쉬운 정규식을 쓰기 위함입니다. 일반 문자열이면 '\\'처럼 이중 이스케이프가 자주 필요합니다.

std::regex 성능이 느릴 수 있다는 말이 있는데, 어떻게 대응하나요?

구현·패턴·입력 길이에 따라 비용이 큽니다. 루프 안에서 동일 패턴을 반복 생성하지 말고 regex 객체는 재사용하고, 복잡한 경로는 단순 파서나 전용 라이브러리를 검토합니다.

smatch와 cmatch는 언제 구분하나요?

std::string에 매칭할 때는 smatch, C 스타일 문자열이나 const char* 기반 범위에는 cmatch를 쓰면 됩니다. 대상 컨테이너·문자 타입이 맞아야 합니다.

C++ 정규표현식 | 'regex' 완벽 가이드

2026년 3월 12일 · 13분 읽기 · 수정 2026년 4월 7일 중급 튜토리얼

이 글의 핵심

C++ 정규표현식의 핵심 개념과 실무 포인트를 정리합니다.

기본 사용법

#include <regex>
#include <iostream>
using namespace std;

int main() {
    regex pattern("\\d+");  // 숫자 패턴
    
    string text = "abc123def456";
    
    // 검색
    if (regex_search(text, pattern)) {
        cout << "숫자 발견" << endl;
    }
}

regex_match vs regex_search

regex pattern("\\d+");

string s1 = "123";
string s2 = "abc123";

// regex_match: 전체 문자열 매칭
cout << regex_match(s1, pattern) << endl;  // 1 (true)
cout << regex_match(s2, pattern) << endl;  // 0 (false)

// regex_search: 부분 문자열 매칭
cout << regex_search(s1, pattern) << endl;  // 1
cout << regex_search(s2, pattern) << endl;  // 1

캡처 그룹

regex pattern("(\\d{3})-(\\d{4})-(\\d{4})");
string phone = "010-1234-5678";

smatch match;
if (regex_match(phone, match, pattern)) {
    cout << "전체: " << match[0] << endl;  // 010-1234-5678
    cout << "지역: " << match[1] << endl;  // 010
    cout << "중간: " << match[2] << endl;  // 1234
    cout << "끝: " << match[3] << endl;    // 5678
}

실전 예시

예시 1: 이메일 검증

bool isValidEmail(const string& email) {
    regex pattern(R"(^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$)");
    return regex_match(email, pattern);
}

int main() {
    cout << isValidEmail("[email protected]") << endl;  // 1
    cout << isValidEmail("invalid.email") << endl;     // 0
}

예시 2: URL 파싱

struct URL {
    string protocol;
    string host;
    string port;
    string path;
};

URL parseURL(const string& url) {
    regex pattern(R"(^(\w+)://([^:/]+)(?::(\d+))?(/.*)?$)");
    smatch match;
    
    if (regex_match(url, match, pattern)) {
        return {
            match[1],  // protocol
            match[2],  // host
            match[3],  // port
            match[4]   // path
        };
    }
    
    return {};
}

int main() {
    auto url = parseURL("https://example.com:8080/path/to/page");
    
    cout << "프로토콜: " << url.protocol << endl;
    cout << "호스트: " << url.host << endl;
    cout << "포트: " << url.port << endl;
    cout << "경로: " << url.path << endl;
}

예시 3: 문자열 치환

#include <regex>

int main() {
    string text = "Hello World, Hello C++";
    regex pattern("Hello");
    
    // 모두 치환
    string result = regex_replace(text, pattern, "Hi");
    cout << result << endl;  // Hi World, Hi C++
    
    // 첫 번째만 치환
    result = regex_replace(text, pattern, "Hi", regex_constants::format_first_only);
    cout << result << endl;  // Hi World, Hello C++
}

예시 4: 로그 파싱

struct LogEntry {
    string timestamp;
    string level;
    string message;
};

vector<LogEntry> parseLog(const string& log) {
    vector<LogEntry> entries;
    
    regex pattern(R"(\[([\d\-: ]+)\] \[(\w+)\] (.+))");
    
    istringstream iss(log);
    string line;
    
    while (getline(iss, line)) {
        smatch match;
        if (regex_match(line, match, pattern)) {
            entries.push_back({
                match[1],  // timestamp
                match[2],  // level
                match[3]   // message
            });
        }
    }
    
    return entries;
}

int main() {
    string log = R"([2026-03-11 10:30:00] [INFO] 서버 시작
[2026-03-11 10:30:05] [ERROR] 연결 실패
[2026-03-11 10:30:10] [WARN] 재시도 중)";
    
    auto entries = parseLog(log);
    
    for (const auto& entry : entries) {
        cout << entry.timestamp << " | " 
             << entry.level << " | " 
             << entry.message << endl;
    }
}

반복자

// 변수 선언 및 초기화
string text = "abc123def456ghi789";
regex pattern("\\d+");

// 모든 매칭 찾기
sregex_iterator it(text.begin(), text.end(), pattern);
sregex_iterator end;

while (it != end) {
    cout << it->str() << endl;  // 123, 456, 789
    ++it;
}

토큰화

string text = "apple,banana,cherry";
regex delimiter(",");

// 토큰 반복자
sregex_token_iterator it(text.begin(), text.end(), delimiter, -1);
sregex_token_iterator end;

while (it != end) {
    cout << *it << endl;  // apple, banana, cherry
    ++it;
}

자주 발생하는 문제

문제 1: 이스케이프

C/C++ 예제 코드입니다.

// ❌ 잘못된 이스케이프
regex pattern("\d+");  // \d가 이스케이프 안됨

// ✅ 이중 백슬래시
regex pattern("\\d+");

// ✅ Raw 문자열 (권장)
regex pattern(R"(\d+)");

문제 2: 성능

// ❌ 매번 regex 생성
for (const string& text : texts) {
    regex pattern("\\d+");  // 비효율
    regex_search(text, pattern);
}

// ✅ regex 재사용
regex pattern("\\d+");
for (const string& text : texts) {
    regex_search(text, pattern);
}

문제 3: 탐욕적 매칭

C/C++ 예제 코드입니다.

string html = "<div>content</div>";

// ❌ 탐욕적
regex greedy("<.*>");
// 매칭: <div>content</div> (전체)

// ✅ 비탐욕적
regex nonGreedy("<.*?>");
// 매칭: <div>, </div> (각각)

정규표현식 문법

C/C++ 예제 코드입니다.

// 문자 클래스
\d  // 숫자 [0-9]
\w  // 단어 [a-zA-Z0-9_]
\s  // 공백
.   // 모든 문자

// 수량자
*   // 0회 이상
+   // 1회 이상
?   // 0 또는 1회
{n} // 정확히 n회
{n,m}  // n~m회

// 앵커
^   // 시작
$   // 끝
\b  // 단어 경계

// 그룹
()  // 캡처 그룹
(?:)  // 비캡처 그룹

FAQ

Q1: 정규표현식은 언제 사용하나요?

문자열 검증
파싱
검색/치환
데이터 추출

Q2: 성능은?

A: 복잡한 패턴은 느릴 수 있습니다. 간단한 경우 string 메서드가 더 빠릅니다.

Q3: Raw 문자열은?

A: R”(…)”로 백슬래시 이스케이프 불필요.

Q4: ECMAScript vs POSIX?

A: 기본은 ECMAScript. regex_constants로 변경 가능.

Q5: 정규표현식 디버깅은?

regex101.com
regexr.com
간단한 패턴부터 테스트

Q6: Regex 학습 리소스는?

cppreference.com
“Mastering Regular Expressions”
regex101.com

같이 보면 좋은 글 (내부 링크)

이 주제와 연결되는 다른 글입니다.

심화 부록: 구현·운영 관점

이 부록은 앞선 본문에서 다룬 주제(「C++ 정규표현식 | ‘regex’ 완벽 가이드」)를 구현·런타임·운영 관점에서 다시 압축합니다. 도메인별 세부 구현은 글마다 다르지만, 입력 검증 → 핵심 연산 → 부작용(I/O·네트워크·동시성) → 관측의 흐름으로 장애를 나누면 원인 추적이 빨라집니다.

내부 동작과 핵심 메커니즘

flowchart TD
  A[입력·요청·이벤트] --> B[파싱·검증·디코딩]
  B --> C[핵심 연산·상태 전이]
  C --> D[부작용: I/O·네트워크·동시성]
  D --> E[결과·관측·저장]

sequenceDiagram
  participant C as 클라이언트/호출자
  participant B as 경계(런타임·게이트웨이·프로세스)
  participant D as 의존성(API·DB·큐·파일)
  C->>B: 요청/이벤트
  B->>D: 조회·쓰기·RPC
  D-->>B: 지연·부분 실패·재시도 가능
  B-->>C: 응답 또는 오류(코드·상관 ID)

불변 조건(Invariant): 버퍼 경계, 프로토콜 상태, 트랜잭션 격리, FD 상한 등 단계별로 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
결정성: 순수 층과 시간·네트워크·스케줄에 의존하는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
경계 비용: 직렬화, 인코딩, syscall 횟수, 락 경합, 할당·GC, 캐시 미스를 의심 목록에 둡니다.
백프레셔: 생산자가 소비자보다 빠를 때 버퍼·큐·스트림에서 속도를 줄이는 신호를 어디에 둘지 정의합니다.

프로덕션 운영 패턴

영역	운영 관점 질문
관측성	요청 단위 상관 ID, 에러율·지연 p95/p99, 의존성 타임아웃·재시도가 대시보드에 보이는가
안전성	입력 검증·권한·비밀·감사 로그가 코드 경로마다 일관적인가
신뢰성	재시도는 멱등 연산에만 적용되는가, 서킷 브레이커·백오프·DLQ가 있는가
성능	캐시·배치 크기·커넥션 풀·인덱스·백프레셔가 데이터 규모에 맞는가
배포	롤백 룬북, 카나리/블루그린, 마이그레이션·피처 플래그가 문서화되어 있는가
용량	피크 트래픽·디스크·FD·스레드 풀 상한을 주기적으로 검증하는가

스테이징은 데이터 양·네트워크 RTT·동시성을 프로덕션에 가깝게 맞출수록 재현율이 올라갑니다.

확장 예시: 엔드투엔드 미니 시나리오

앞선 본문 주제(「C++ 정규표현식 | ‘regex’ 완벽 가이드」)를 배포·운영 흐름에 맞춰 옮긴 체크리스트입니다. 도메인에 맞게 단계 이름만 바꿔 적용할 수 있습니다.

입력 계약 고정: 스키마·버전·최대 페이로드·타임아웃·에러 코드를 경계에 둔다.
핵심 경로 계측: 요청 ID, 단계별 지연, 외부 호출 결과 코드를 로그·메트릭·트레이스에서 한 흐름으로 본다.
실패 주입: 의존성 타임아웃·5xx·부분 데이터·락 대기를 스테이징에서 재현한다.
호환·롤백: 설정/마이그레이션/클라이언트 버전을 되돌릴 수 있는지 확인한다.
부하 후 검증: 피크 대비 p95/p99, 에러율, 리소스 상한, 알림 임계값을 점검한다.

handle(request):
  ctx = newCorrelationId()
  validated = validateSchema(request)
  authorize(validated, ctx)
  result = domainCore(validated)
  persistOrEmit(result, idempotentKey)
  recordMetrics(ctx, latency, outcome)
  return result

문제 해결(Troubleshooting)

증상	가능 원인	조치
간헐적 실패	레이스, 타임아웃, 외부 의존성, DNS	최소 재현 스크립트, 분산 트레이스·로그 상관관계, 재시도·서킷 설정 점검
성능 저하	N+1, 동기 I/O, 락 경합, 과도한 직렬화, 캐시 미스	프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거
메모리 증가	캐시 무제한, 구독/리스너 누수, 대용량 버퍼, 커넥션 미반납	상한·TTL·힙/FD 스냅샷 비교
빌드·배포만 실패	환경 변수, 권한, 플랫폼 차이, lockfile	CI 로그와 로컬 diff, 런타임·이미지 버전 핀
설정 불일치	프로필·시크릿·기본값, 리전	스키마 검증된 설정 단일 소스와 배포 매트릭스 표준화
데이터 불일치	비멱등 재시도, 부분 쓰기, 캐시 무효화 누락	멱등 키·아웃박스·트랜잭션 경계 재검토

권장 순서: (1) 최소 재현 (2) 최근 변경 범위 축소 (3) 환경·의존성 차이 (4) 관측으로 가설 검증 (5) 수정 후 회귀·부하 테스트.

배포 전에는 git add → git commit → git push 후 npm run deploy 순서를 권장합니다.

이 글에서 다루는 키워드 (관련 검색어)

C++, regex, 정규표현식, pattern, 문자열 등으로 검색하시면 이 글이 도움이 됩니다.

이 글이 도움이 되셨나요?

여러분의 피드백은 더 나은 콘텐츠를 만드는 데 도움이 됩니다

문제가 있거나 개선 제안이 있으시면 연락처로 알려주세요.

Keyboard Shortcuts

C++ 정규표현식 | 'regex' 완벽 가이드

이 글의 핵심

기본 사용법

regex_match vs regex_search

캡처 그룹

실전 예시

예시 1: 이메일 검증

예시 2: URL 파싱

예시 3: 문자열 치환

예시 4: 로그 파싱

반복자

토큰화

자주 발생하는 문제

문제 1: 이스케이프

문제 2: 성능

문제 3: 탐욕적 매칭

정규표현식 문법

FAQ

Q1: 정규표현식은 언제 사용하나요?

Q2: 성능은?

Q3: Raw 문자열은?

Q4: ECMAScript vs POSIX?

Q5: 정규표현식 디버깅은?

Q6: Regex 학습 리소스는?

같이 보면 좋은 글 (내부 링크)

관련 글

심화 부록: 구현·운영 관점

내부 동작과 핵심 메커니즘

프로덕션 운영 패턴

확장 예시: 엔드투엔드 미니 시나리오

문제 해결(Troubleshooting)

이 글에서 다루는 키워드 (관련 검색어)

이 글이 도움이 되셨나요?