std::string.length()가 UTF-8에서 글자 수와 다른 이유는?

std::string은 바이트 시퀀스입니다. UTF-8에서는 코드 포인트마다 1~4바이트를 쓰므로, 바이트 수≠유니코드 스칼라 개수≠화면에 보이는 문자(그래피먼 클러스터) 개수입니다.

한 소스 UTF-8, 한 소스 UTF-16이면 왜 같은 유니코드인데 검색 결과가 다를 수 있나요?

표현형이 다른 경우(NFD vs NFC 같은 정규화) 검색열과 인덱스가 어긋날 수 있습니다. 저장 전 정규화 정책을 팀 차원에서 통일해야 합니다.

BOM은 써야 하나요?

웹(JSON·HTML)·많은 Unix 도구 관례에서는 UTF-8 BOM을 피하는 편입니다. BOM이 붙어 파서가 깨지는 사고가 많습니다. Windows 전용 에디터와의 교차만 있다면 명시적인 계약 문서가 필요합니다.

UTF-8 실무 엔지니어링 가이드 | 바이트·유니코드·정규화·흔한 장애 대응

2026년 5월 6일 · 45분 읽기 · 수정 2026년 5월 6일 중급 가이드

이 글의 핵심

UTF-8 바이트 구조, 길이의 함정(code unit vs 코드 포인트 vs 사용자가 보는 글자), NFC/NFD, 검증 파이프라인, 저장·교환·렌더링 경계별 체크리스트를 제공합니다.

들어가며

문자 인코딩 완벽 가이드에서 UTF-8의 위치를 넓게 볼 수 있습니다. 여기서는 “UTF-8만 쓰기로 했을 때 현장에서 부딪히는 문제”에 초점을 맞춥니다.

UTF-8을 쓴다고 끝이 아닌 이유

많은 팀이 “UTF-8로 통일하자”고 결정하지만, 실제로는 다음과 같은 문제가 계속 발생합니다:

# 겉보기엔 같은 "café"인데...
str1 = "café"  # NFC (é = U+00E9, 한 코드 포인트)
str2 = "café"  # NFD (e + ́ = U+0065 U+0301, 두 코드 포인트)

print(str1 == str2)  # False! 데이터베이스에서 중복 검색 실패
print(len(str1.encode('utf-8')), len(str2.encode('utf-8')))  # 5, 6 바이트

// 이모지 가족의 충격
const family = "👨‍👩‍👧‍👦";
console.log(family.length);        // 25 (WTF?)
console.log([...family].length);  // 7 (코드 포인트)
console.log(new Intl.Segmenter().segment(family).length); // 1 (사용자가 보는 글자)

이 글에서 다루는 핵심 문제:

바이트 vs 글자의 괴리
- "👨‍👩‍👧‍👦".length가 25인 이유 (JavaScript)
- MySQL CHAR(10)에 한글 3글자만 들어가는 현상
- C++ std::string::substr()로 잘랐더니 깨진 문자
잘린 UTF-8 시퀀스가 운영 사고로 이어지는 경로
- 네트워크 청크 경계에서 잘린 멀티바이트 문자
- 로그 수집기에서 발생하는 U+FFFD (Replacement Character) 폭발
- Redis에 저장했다가 꺼낸 문자열이 깨지는 케이스
정규화(NFC/NFD) 불일치
- macOS(NFD) vs Linux(NFC) 파일명 충돌
- 모바일 입력기와 웹 폼의 정규화 차이로 인한 중복 데이터
- Git에서 같은 파일인데 다른 파일로 인식되는 문제
API·DB·파일 계약
- charset=utf-8 vs charset=UTF-8 (대소문자 차이)
- MySQL utf8(3바이트) vs utf8mb4(진짜 UTF-8)
- HTTP Content-Type vs HTML <meta charset> 불일치

1. UTF-8 기본 구조와 검증

1.1 UTF-8 인코딩 규칙

UTF-8은 코드 포인트(U+0000 … U+10FFFF 중 유효한 값)를 1~4바이트 가변 폭으로 인코딩합니다:

코드 포인트 범위	UTF-8 바이트 패턴	예시
U+0000 ~ U+007F	`0xxxxxxx`	`A` = `41`
U+0080 ~ U+07FF	`110xxxxx 10xxxxxx`	`©` = `C2 A9`
U+0800 ~ U+FFFF	`1110xxxx 10xxxxxx 10xxxxxx`	`한` = `ED 95 9C`
U+10000 ~ U+10FFFF	`11110xxx 10xxxxxx 10xxxxxx 10xxxxxx`	`😀` = `F0 9F 98 80`

한글 완성형은 대부분 U+AC00 ~ U+D7A3 범위에 있어 3바이트를 차지합니다.

# 한글 바이트 확인
text = "안녕하세요"
print(text.encode('utf-8').hex())  
# ec 95 88 eb 85 95 ed 95 98 ec 84 b8 ec 9a 94
# 3바이트 × 5글자 = 15바이트

# 영어 + 한글 혼합
mixed = "Hello 세계"
print(len(mixed))  # 9 (파이썬 str은 코드 포인트 단위)
print(len(mixed.encode('utf-8')))  # 11 (Hello=5, 공백=1, 세계=6)

1.2 유효하지 않은 UTF-8 검출

다음은 무효한 UTF-8 패턴입니다:

# ❌ 무효 UTF-8 예시
invalid_sequences = [
    b'\xC0\x80',        # Overlong encoding (U+0000을 2바이트로)
    b'\xED\xA0\x80',    # UTF-16 서로게이트 (U+D800, 금지됨)
    b'\xF4\x90\x80\x80', # U+110000 (유니코드 범위 초과)
    b'\x80',            # 단독 continuation byte
    b'\xC2',            # 불완전한 시퀀스 (2바이트 필요한데 1바이트만)
]

for seq in invalid_sequences:
    try:
        seq.decode('utf-8')
        print(f"✓ {seq.hex()}")
    except UnicodeDecodeError as e:
        print(f"✗ {seq.hex()}: {e}")

출력:

✗ c080: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte
✗ eda080: 'utf-8' codec can't decode bytes in position 0-2: invalid continuation byte
✗ f4908080: 'utf-8' codec can't decode bytes in position 0-3: invalid start byte
✗ 80: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte
✗ c2: 'utf-8' codec can't decode byte 0xc2 in position 0: unexpected end of data

1.3 실무 검증 함수

def validate_utf8_strict(data: bytes) -> tuple[bool, str]:
    """UTF-8 유효성 엄격 검증"""
    try:
        data.decode('utf-8')
        return True, "Valid UTF-8"
    except UnicodeDecodeError as e:
        return False, f"Invalid at byte {e.start}: {e.reason}"

def validate_utf8_with_replacement(data: bytes) -> str:
    """무효 바이트를 U+FFFD로 치환"""
    return data.decode('utf-8', errors='replace')

# 사용 예
log_chunk = b'Log: \xED\x95\x9C\xEF\xBF\xBD Message'  # 중간에 잘린 바이트
is_valid, msg = validate_utf8_strict(log_chunk)
print(f"Valid: {is_valid}, {msg}")
# Valid: False, Invalid at byte 7: invalid continuation byte

repaired = validate_utf8_with_replacement(log_chunk)
print(f"Repaired: {repaired}")
# Repaired: Log: 한� Message

2. 길이의 세 층: Code Unit · 코드 포인트 · Grapheme Cluster

2.1 문제 상황

// JavaScript: UTF-16 code units 기준
const text = "안녕👋🏻";
console.log(text.length);           // 6 (UTF-16 code units)
console.log([...text].length);     // 4 (코드 포인트: 안, 녕, 👋, 🏻)
console.log(new Intl.Segmenter().segment(text).length); // 3 (사용자가 보는 글자)

// C++: std::string은 바이트 배열
#include <string>
#include <iostream>

int main() {
    std::string text = "안녕하세요";  // UTF-8로 저장됨 (15바이트)
    std::cout << text.length() << std::endl;  // 15 (바이트)
    
    // ❌ 위험: 바이트 단위로 자르면 깨짐
    std::string truncated = text.substr(0, 8);  // 2글자 + 불완전한 3번째 글자
    std::cout << truncated << std::endl;  // "안녕�" (깨진 문자)
}

2.2 세 가지 “길이”의 정의

관점	의미	언어별 API	실무 용도
Code Unit	인코딩 단위 (UTF-8=바이트, UTF-16=2바이트)	C++ `std::string::size()`, JS `str.length`	버퍼 크기, 네트워크 전송량
Code Point	유니코드 스칼라 값 (U+XXXX)	Python3 `len(str)`, Rust `str.chars().count()`	유효성 검증, 문자 연산
Grapheme Cluster	사용자가 인식하는 “글자”	ICU, JS `Intl.Segmenter`	UI 커서 이동, 텍스트 자르기

2.3 Grapheme Cluster의 복잡성

# Python: unicodedata로 Grapheme Cluster 근사
import unicodedata

def grapheme_length_approx(text):
    """간단한 Grapheme Cluster 카운트 (근사)"""
    count = 0
    for char in text:
        if unicodedata.combining(char) == 0:  # 비결합 문자만 카운트
            count += 1
    return count

# 예시
text1 = "café"  # NFC: c, a, f, é (4글자)
text2 = "café"  # NFD: c, a, f, e, ́  (5 코드 포인트, 4 Grapheme)

print(len(text1), grapheme_length_approx(text1))  # 4, 4
print(len(text2), grapheme_length_approx(text2))  # 5, 4

복잡한 예: 이모지 ZWJ 시퀀스

// "가족" 이모지는 실제로 7개 코드 포인트의 결합
const family = "👨‍👩‍👧‍👦";
console.log([...family]);
// ['👨', '‍', '👩', '‍', '👧', '‍', '👦']
//  남자   ZWJ  여자   ZWJ  소녀  ZWJ  소년

// ZWJ (Zero Width Joiner, U+200D)가 이들을 하나로 묶음

2.4 실무 권장사항

작업	사용할 단위	라이브러리
데이터베이스 컬럼 크기	바이트	MySQL `VARCHAR(255)` = 255바이트
API 최대 길이 제한	코드 포인트 또는 바이트	명시 필수
UI 텍스트 자르기	Grapheme Cluster	ICU, Intl.Segmenter
파일 I/O 버퍼	바이트	-

# 잘못된 예: 바이트로 자르기
def truncate_wrong(text, max_bytes):
    return text.encode('utf-8')[:max_bytes].decode('utf-8')  # ❌ UnicodeDecodeError!

# 올바른 예: 안전하게 자르기
def truncate_safe(text, max_bytes):
    encoded = text.encode('utf-8')
    if len(encoded) <= max_bytes:
        return text
    # 역방향으로 유효한 경계 찾기
    for i in range(max_bytes, max(max_bytes - 4, 0), -1):
        try:
            return encoded[:i].decode('utf-8')
        except UnicodeDecodeError:
            continue
    return ""

print(truncate_safe("안녕하세요", 8))  # "안녕" (6바이트, 안전)

3. 잘린 시퀀스와 검증 파이프라인

3.1 실전 시나리오: 네트워크 청크

import socket

# 서버: 스트리밍 응답
def stream_response(client_socket):
    data = "안녕하세요 여러분! 🎉".encode('utf-8')
    # ❌ 임의의 위치에서 자르면 위험
    client_socket.send(data[:10])  # "안녕하" + 불완전한 바이트
    client_socket.send(data[10:])

# 클라이언트: 수신
buffer = b''
while True:
    chunk = sock.recv(4096)
    if not chunk:
        break
    buffer += chunk
    
    # ❌ 중간에 디코딩 시도하면 깨짐
    try:
        text = buffer.decode('utf-8')
        print(text)  # UnicodeDecodeError 가능!
    except UnicodeDecodeError:
        pass  # 다음 청크 기다림

3.2 안전한 스트리밍 처리

import codecs

class UTF8StreamDecoder:
    def __init__(self):
        self.decoder = codecs.getincrementaldecoder('utf-8')()
    
    def feed(self, chunk: bytes) -> str:
        """불완전한 시퀀스를 내부 버퍼에 보관"""
        return self.decoder.decode(chunk, final=False)
    
    def finalize(self) -> str:
        """스트림 종료 시 남은 데이터 처리"""
        return self.decoder.decode(b'', final=True)

# 사용 예
decoder = UTF8StreamDecoder()
chunks = [
    b'\xec\x95\x88',        # "안" 완전
    b'\xeb\x85\x95',        # "녕" 완전
    b'\xed\x95\x98\xec',    # "하" + "세"의 첫 바이트만
    b'\x84\xb8\xec\x9a\x94', # "세"의 나머지 + "요"
]

for chunk in chunks:
    text = decoder.feed(chunk)
    print(f"Decoded: {repr(text)}")

print(f"Final: {decoder.finalize()}")

출력:

Decoded: '안'
Decoded: '녕'
Decoded: '하'
Decoded: '세요'
Final: ''

3.3 로그 파일 처리

def read_utf8_logs_safe(filepath):
    """UTF-8 로그 파일을 안전하게 읽기"""
    with open(filepath, 'rb') as f:
        decoder = codecs.getincrementaldecoder('utf-8')(errors='replace')
        for line in f:
            # 무효 바이트는 U+FFFD로 치환
            text = decoder.decode(line, final=False)
            yield text.rstrip('\n')
        # 파일 끝에서 불완전한 시퀀스 처리
        remaining = decoder.decode(b'', final=True)
        if remaining:
            yield remaining

# 사용
for log_line in read_utf8_logs_safe('/var/log/app.log'):
    print(log_line)

3.4 실무 체크리스트

네트워크 프로토콜: 메시지 길이를 헤더에 명시 (예: HTTP Content-Length)
스트리밍 API: IncrementalDecoder 사용
로그 수집: errors='replace' 또는 errors='ignore' 정책 문서화
데이터베이스: STRICT_TRANS_TABLES 모드로 무효 UTF-8 삽입 차단
파일 업로드: 업로드 시점에 UTF-8 검증 (악의적인 바이트 시퀀스 방어)

4. 정규화(NFC/NFD): “보이기엔 같은데 다른 문자열”

4.1 정규화란?

유니코드는 같은 문자를 여러 방식으로 표현할 수 있습니다:

import unicodedata

# NFC (Canonical Composition): 미리 합성된 형태
nfc = "café"  # U+0063 U+0061 U+0066 U+00E9
print(nfc.encode('utf-8').hex())  # 63 61 66 c3 a9 (5바이트)

# NFD (Canonical Decomposition): 분해된 형태
nfd = unicodedata.normalize('NFD', nfc)
print(nfd)  # "café" (동일하게 보임!)
print(nfd.encode('utf-8').hex())  # 63 61 66 65 cc 81 (6바이트)
print(list(nfd))  # ['c', 'a', 'f', 'e', '́']

# 비교
print(nfc == nfd)  # False!
print(unicodedata.normalize('NFC', nfc) == unicodedata.normalize('NFC', nfd))  # True

4.2 실무 문제 사례

사례 1: macOS 파일 시스템

# macOS (HFS+는 NFD 강제)
$ touch café.txt  # 입력은 NFC
$ ls | xxd
# 실제 파일명은 NFD로 저장됨: cafe\xcc\x81.txt

# Linux에서 동일 파일명 생성 시 (NFC)
$ touch café.txt  # NFC로 저장
$ ls
# café.txt (NFC)
# café.txt (NFD)
# 같아 보이지만 다른 파일!

사례 2: 데이터베이스 중복 검색 실패

# Django 예시
from django.db import models
import unicodedata

class User(models.Model):
    email = models.EmailField(unique=True)

# 사용자 A: macOS에서 가입 (NFD)
user_a = User.objects.create(email="café@example.com")  # NFD로 저장됨

# 사용자 B: Windows에서 가입 (NFC)
try:
    user_b = User.objects.create(email="café@example.com")  # NFC
    # ✓ 성공! (DB는 바이트 단위로 다르다고 판단)
except IntegrityError:
    pass  # 예상과 달리 여기 안 옴

해결책:

# 모델에 저장 전 정규화
class User(models.Model):
    email = models.EmailField()
    
    def save(self, *args, **kwargs):
        self.email = unicodedata.normalize('NFC', self.email)
        super().save(*args, **kwargs)

사례 3: Git 충돌

# 개발자 A (macOS): 파일 커밋
$ git add café.txt  # NFD
$ git commit -m "Add café"

# 개발자 B (Linux): 같은 파일명 커밋
$ git add café.txt  # NFC
$ git commit -m "Add café"

# Git은 두 파일을 다르다고 인식!
$ git status
# Untracked files:
#   café.txt (NFC)

4.3 언어별 정규화 API

# Python
import unicodedata
normalized = unicodedata.normalize('NFC', text)

// JavaScript
const normalized = text.normalize('NFC');

// Rust (unicode-normalization crate)
use unicode_normalization::UnicodeNormalization;
let normalized: String = text.nfc().collect();

// C++ (ICU 라이브러리)
#include <unicode/normalizer2.h>

UErrorCode error = U_ZERO_ERROR;
const icu::Normalizer2* nfc = icu::Normalizer2::getNFCInstance(error);
icu::UnicodeString normalized;
nfc->normalize(input, normalized, error);

4.4 정규화 정책 권장사항

레이어	권장 정규화	이유
데이터베이스 저장	NFC	대부분의 문자가 더 짧은 바이트로 표현됨
파일 시스템	플랫폼 따름	macOS는 NFD 강제, 억지로 바꾸지 말 것
HTTP API	NFC	웹 브라우저 기본값
검색 인덱스	NFC 통일	색인 생성 시와 쿼리 시 동일한 정규화 적용

# API 엔드포인트에서 정규화 강제
from flask import Flask, request
import unicodedata

app = Flask(__name__)

@app.route('/search')
def search():
    query = request.args.get('q', '')
    # 클라이언트가 어떤 정규화를 보냈든 NFC로 통일
    normalized_query = unicodedata.normalize('NFC', query)
    results = db.search(normalized_query)
    return results

5. 웹과 JSON에서의 UTF-8

5.1 HTML 인코딩 선언

<!DOCTYPE html>
<html>
<head>
    <!-- ✅ 올바른 방법 -->
    <meta charset="UTF-8">
    
    <!-- ❌ 피해야 할 방법 -->
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <!-- (HTML5에서는 위 방법 deprecated) -->
</head>
<body>
    <h1>안녕하세요</h1>
</body>
</html>

문제 상황: HTTP 헤더와 HTML 메타 태그 불일치

# Flask 서버: 헤더는 ISO-8859-1, HTML은 UTF-8
@app.route('/page')
def page():
    html = '''
    <!DOCTYPE html>
    <html>
    <head><meta charset="UTF-8"></head>
    <body>한글</body>
    </html>
    '''
    # ❌ 헤더에 charset 명시 안 함 (기본값 ISO-8859-1)
    return html

# 브라우저: "ISO-8859-1로 읽어야 하나? UTF-8로 읽어야 하나?"

해결책:

@app.route('/page')
def page():
    html = '<!DOCTYPE html>...'
    # ✅ HTTP 헤더와 HTML 모두 UTF-8 명시
    response = make_response(html)
    response.headers['Content-Type'] = 'text/html; charset=utf-8'
    return response

5.2 JSON은 UTF-8이 기본

RFC 8259에 따르면 JSON은 반드시 UTF-8, UTF-16, UTF-32 중 하나여야 하며, 네트워크 전송 시 UTF-8이 기본입니다.

import json

data = {"message": "안녕하세요", "emoji": "😀"}

# ✅ 올바른 직렬화 (UTF-8)
json_bytes = json.dumps(data, ensure_ascii=False).encode('utf-8')
print(json_bytes)
# b'{"message": "\xec\x95\x88\xeb\x85\x95\xed\x95\x98\xec\x84\xb8\xec\x9a\x94", "emoji": "\xf0\x9f\x98\x80"}'

# ❌ ASCII 이스케이프 (불필요하게 길어짐)
json_ascii = json.dumps(data, ensure_ascii=True)
print(json_ascii)
# {"message": "\uc548\ub155\ud558\uc138\uc694", "emoji": "\ud83d\ude00"}

API 응답 예시:

# FastAPI
from fastapi import FastAPI
from fastapi.responses import JSONResponse

app = FastAPI()

@app.get("/users/{user_id}")
async def get_user(user_id: int):
    user = {"id": user_id, "name": "홍길동"}
    # ✅ FastAPI는 자동으로 UTF-8 JSON 응답 (ensure_ascii=False)
    return user

# Content-Type: application/json; charset=utf-8

5.3 BOM (Byte Order Mark) 논쟁

UTF-8에서 BOM(EF BB BF)은 선택 사항이지만, 실무에서는 피하는 것이 권장됩니다.

# BOM 있는 파일
with open('with_bom.txt', 'wb') as f:
    f.write(b'\xef\xbb\xbf')  # BOM
    f.write('안녕하세요'.encode('utf-8'))

# 문제 1: JSON 파싱 실패
import json
with open('config.json', 'rb') as f:
    content = f.read()
    if content.startswith(b'\xef\xbb\xbf'):
        content = content[3:]  # BOM 제거 필요
    data = json.loads(content)

# 문제 2: Shebang 깨짐
# #!/usr/bin/env python3  <- BOM이 있으면 인식 실패

BOM 제거:

def remove_bom(filepath):
    """파일에서 UTF-8 BOM 제거"""
    with open(filepath, 'rb') as f:
        content = f.read()
    
    if content.startswith(b'\xef\xbb\xbf'):
        with open(filepath, 'wb') as f:
            f.write(content[3:])
        print(f"BOM removed from {filepath}")

6. 데이터베이스: MySQL utf8 vs utf8mb4 함정

6.1 MySQL의 역사적 실수

MySQL에서 utf8은 실제로 UTF-8이 아닙니다. 최대 3바이트까지만 지원하므로, 이모지(4바이트)를 저장할 수 없습니다.

-- ❌ 잘못된 설정
CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(100) CHARACTER SET utf8  -- 이모지 불가!
);

INSERT INTO users (id, name) VALUES (1, 'John 😀');
-- Error: Incorrect string value: '\xF0\x9F\x98\x80' for column 'name'

-- ✅ 올바른 설정
CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci
);

6.2 기존 테이블 마이그레이션

-- 테이블 변환
ALTER TABLE users CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

-- 컬럼별 변환
ALTER TABLE users MODIFY name VARCHAR(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

-- 데이터베이스 기본값 변경
ALTER DATABASE mydb CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

주의사항: VARCHAR(255)는 바이트 수가 아닌 문자 수를 의미합니다.

-- utf8mb4에서 VARCHAR(255)는 최대 1020바이트 (255 × 4)
-- 인덱스 키 최대 길이(767바이트)를 초과할 수 있음!

-- ❌ 에러 발생 가능
CREATE TABLE users (
    email VARCHAR(255) CHARACTER SET utf8mb4,
    PRIMARY KEY (email)  -- 인덱스 키가 너무 큼!
);

-- ✅ 해결책 1: 길이 줄이기
CREATE TABLE users (
    email VARCHAR(191) CHARACTER SET utf8mb4,  -- 191 × 4 = 764바이트
    PRIMARY KEY (email)
);

-- ✅ 해결책 2: innodb_large_prefix 활성화 (MySQL 5.7+)
SET GLOBAL innodb_large_prefix = 1;
SET GLOBAL innodb_file_format = Barracuda;

6.3 PostgreSQL

PostgreSQL은 처음부터 올바르게 구현되어 있습니다:

-- PostgreSQL은 'UTF8'이 진짜 UTF-8
CREATE DATABASE mydb ENCODING 'UTF8';

-- 정렬 규칙도 지정 가능
CREATE DATABASE mydb
    ENCODING 'UTF8'
    LC_COLLATE 'ko_KR.UTF-8'
    LC_CTYPE 'ko_KR.UTF-8';

7. 프로그래밍 언어별 주의사항

7.1 Python 3

# ✅ 문자열은 유니코드 (코드 포인트 시퀀스)
text = "안녕하세요"
print(type(text))  # <class 'str'>
print(len(text))   # 5 (코드 포인트)

# 바이트로 변환
encoded = text.encode('utf-8')
print(type(encoded))  # <class 'bytes'>
print(len(encoded))   # 15 (바이트)

# ❌ 파일 I/O 함정: 기본 인코딩은 플랫폼 의존
with open('data.txt', 'r') as f:  # Windows: CP949, Linux: UTF-8
    content = f.read()

# ✅ 명시적 인코딩 지정
with open('data.txt', 'r', encoding='utf-8') as f:
    content = f.read()

7.2 JavaScript

// ❌ 함정: 문자열은 UTF-16 code units
const text = "안녕 😀";
console.log(text.length);        // 5 (UTF-16 code units)
console.log(text.charAt(3));    // '\uD83D' (서로게이트 절반!)

// ✅ 코드 포인트 순회
for (const char of text) {
    console.log(char);
}
// 출력: 안, 녕, (공백), 😀

// ✅ Grapheme Cluster 분리 (최신 브라우저)
const segmenter = new Intl.Segmenter('ko', { granularity: 'grapheme' });
const segments = [...segmenter.segment(text)];
console.log(segments.map(s => s.segment));
// ['안', '녕', ' ', '😀']

7.3 C++

#include <string>
#include <codecvt>
#include <locale>
#include <iostream>

int main() {
    // ❌ std::string은 인코딩 비보장
    std::string utf8_text = u8"안녕하세요";  // C++20 이전
    std::u8string utf8_text = u8"안녕하세요"; // C++20+
    
    // ✅ UTF-8 길이 (코드 포인트) 카운트
    int count = 0;
    for (size_t i = 0; i < utf8_text.size(); ) {
        unsigned char c = utf8_text[i];
        if ((c & 0x80) == 0) i += 1;        // 1바이트
        else if ((c & 0xE0) == 0xC0) i += 2; // 2바이트
        else if ((c & 0xF0) == 0xE0) i += 3; // 3바이트
        else if ((c & 0xF8) == 0xF0) i += 4; // 4바이트
        else { i++; continue; }  // 무효 바이트 스킵
        count++;
    }
    std::cout << "Code points: " << count << std::endl;
}

권장: C++에서는 ICU 라이브러리 사용을 적극 권장합니다.

7.4 Rust

// ✅ Rust의 String은 항상 유효한 UTF-8 보장
let text = String::from("안녕하세요");
println!("{}", text.len());  // 15 (바이트)

// 코드 포인트 순회
for ch in text.chars() {
    println!("{}", ch);
}

// ❌ 바이트로 자르면 패닉!
// let truncated = &text[..8];  // thread 'main' panicked at 'byte index 8 is not a char boundary'

// ✅ 안전한 자르기
fn truncate_safe(s: &str, max_bytes: usize) -> &str {
    if s.len() <= max_bytes {
        return s;
    }
    for i in (0..=max_bytes).rev() {
        if s.is_char_boundary(i) {
            return &s[..i];
        }
    }
    ""
}

8. 운영 중 깨짐이 났을 때의 디버깅 순서

8.1 1단계: 실제 바이트 확인

# 웹 응답 바이트 덤프
import requests

response = requests.get('https://example.com/api/data')
print("Content-Type:", response.headers.get('Content-Type'))
print("Raw bytes (hex):", response.content[:50].hex())
print("Decoded:", response.text)

# 파일 헥사 덤프
with open('data.txt', 'rb') as f:
    raw = f.read(100)
    print(' '.join(f'{b:02x}' for b in raw))

# 커맨드라인 도구
hexdump -C data.txt | head
xxd data.txt | head

# UTF-8 유효성 검사
iconv -f utf-8 -t utf-8 data.txt > /dev/null
# iconv: illegal input sequence at position XXX

8.2 2단계: 선언 vs 실제 비교

# HTTP 응답 검증
def validate_http_charset(response):
    content_type = response.headers.get('Content-Type', '')
    declared_charset = 'utf-8'  # 기본값
    
    if 'charset=' in content_type:
        declared_charset = content_type.split('charset=')[1].split(';')[0].strip()
    
    # 실제 바이트로 디코딩 시도
    try:
        decoded = response.content.decode(declared_charset)
        print(f"✓ {declared_charset} decoding successful")
    except UnicodeDecodeError as e:
        print(f"✗ {declared_charset} decoding failed: {e}")
        
        # 다른 인코딩 시도
        for enc in ['utf-8', 'iso-8859-1', 'cp949', 'euc-kr']:
            try:
                decoded = response.content.decode(enc)
                print(f"  → {enc} works!")
                break
            except:
                pass

8.3 3단계: 이중 인코딩 검출

# 흔한 패턴: UTF-8을 latin1로 잘못 읽었다가 다시 UTF-8로 디코딩
corrupted = "ì•ˆë…•í•˜ì„¸ìš""  # "안녕하세요"가 깨진 것
print(corrupted.encode('latin1').decode('utf-8'))  # "안녕하세요" 복구!

# 일반화된 복구 함수
def recover_double_encoded(text):
    """이중 인코딩된 문자열 복구 시도"""
    attempts = [
        ('latin1', 'utf-8'),
        ('cp1252', 'utf-8'),
        ('iso-8859-1', 'utf-8'),
    ]
    
    for wrong_enc, correct_enc in attempts:
        try:
            recovered = text.encode(wrong_enc).decode(correct_enc)
            print(f"✓ Recovered using {wrong_enc} → {correct_enc}")
            return recovered
        except (UnicodeDecodeError, UnicodeEncodeError):
            continue
    
    return text  # 복구 실패 시 원본 반환

8.4 4단계: 정규화 차이 검사

import unicodedata

def compare_normalization(str1, str2):
    """두 문자열의 정규화 형태 비교"""
    print(f"원본 비교: {str1 == str2}")
    print(f"바이트: {str1.encode('utf-8').hex()} vs {str2.encode('utf-8').hex()}")
    
    for form in ['NFC', 'NFD', 'NFKC', 'NFKD']:
        n1 = unicodedata.normalize(form, str1)
        n2 = unicodedata.normalize(form, str2)
        print(f"{form}: {n1 == n2}")

# 예시
compare_normalization("café", "café")

9. 팀 차원 규약 예시

9.1 인코딩 정책 문서 (예시)

# 프로젝트 인코딩 가이드

## 기본 원칙
- 모든 텍스트 데이터는 **UTF-8**로 저장 및 전송
- 정규화 형태는 **NFC** 사용
- UTF-8 BOM은 **사용하지 않음**

## 레이어별 상세

### 1. 소스 코드
- 파일 인코딩: UTF-8 (without BOM)
- 설정: `.editorconfig`에 명시
  ```ini
  [*]
  charset = utf-8

2. 데이터베이스 (MySQL)

Character Set: utf8mb4
Collation: utf8mb4_unicode_ci

마이그레이션 체크리스트:

SHOW CREATE TABLE users;  -- CHARACTER SET 확인
ALTER TABLE users CONVERT TO CHARACTER SET utf8mb4;

3. HTTP API

요청/응답 모두 Content-Type: application/json; charset=utf-8
입력 데이터는 서버에서 NFC 정규화
최대 길이 제한: 바이트 단위로 명시 (예: 1MB)

4. 파일 I/O

명시적 인코딩 지정 필수

# ✅ Good
with open('file.txt', 'r', encoding='utf-8') as f:
    data = f.read()

# ❌ Bad
with open('file.txt', 'r') as f:  # 플랫폼 의존!
    data = f.read()

5. 로그

로그 수집 시 errors='replace' 사용
무효 UTF-8은 U+FFFD로 치환 후 알림

CI/CD 검증

# .github/workflows/encoding-check.yml
name: Encoding Check
on: [push, pull_request]
jobs:
  check:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3
      - name: Check UTF-8 validity
        run: |
          find . -name "*.py" -o -name "*.js" | while read f; do
            iconv -f utf-8 -t utf-8 "$f" > /dev/null || echo "ERROR: $f"
          done
      - name: Check BOM
        run: |
          if grep -rl $'\xEF\xBB\xBF' src/; then
            echo "ERROR: BOM found!"
            exit 1
          fi


### 9.2 코드 리뷰 체크리스트

- [ ] 파일 I/O 시 `encoding='utf-8'` 명시했는가?
- [ ] 사용자 입력을 NFC로 정규화했는가?
- [ ] `std::string::substr()` 같은 바이트 기반 자르기를 하지 않았는가?
- [ ] API 응답에 `Content-Type: ...; charset=utf-8` 헤더가 있는가?
- [ ] 데이터베이스 컬럼이 `utf8mb4`인가?

---

## 10. 참고 자료

- [Unicode Standard](https://www.unicode.org/versions/latest/)
- [UTF-8 RFC 3629](https://www.rfc-editor.org/rfc/rfc3629)
- [JSON RFC 8259](https://www.rfc-editor.org/rfc/rfc8259)
- [Unicode Normalization (UAX #15)](https://www.unicode.org/reports/tr15/)
- [ICU 라이브러리](https://unicode-org.github.io/icu/)
- [Python codecs 모듈](https://docs.python.org/3/library/codecs.html)

---

## 마무리

UTF-8을 선택하는 것은 **문자 인코딩 문제의 90%를 해결**합니다. 하지만 나머지 10%는 다음을 요구합니다:

1. **정확한 이해**: Code Unit ≠ Code Point ≠ Grapheme Cluster
2. **경계 처리**: 네트워크/파일 청크에서 잘린 시퀀스 대응
3. **정규화 통일**: NFC/NFD 정책을 팀 차원에서 문서화
4. **명시적 계약**: HTTP 헤더, DB collation, 파일 I/O 인코딩 모두 명시
5. **검증 파이프라인**: CI/CD에서 UTF-8 유효성 검사

**"UTF-8로 저장했으니 끝"이 아니라, "어떤 정규화로, 어떤 검증 정책으로, 어떤 에러 처리 전략으로 UTF-8을 다룰 것인가"까지 정해야 진정한 유니코드 호환 시스템**입니다.

이 글의 체크리스트와 코드 예제를 팀 위키에 붙여두고, 문자열 관련 버그가 발생할 때마다 참고하세요! 🚀

이 글이 도움이 되셨나요?

여러분의 피드백은 더 나은 콘텐츠를 만드는 데 도움이 됩니다

문제가 있거나 개선 제안이 있으시면 연락처로 알려주세요.