고급 정렬 | 퀵, 병합, 힙 정렬 O(n log n) 완벽 정리

고급 정렬 | 퀵, 병합, 힙 정렬 O(n log n) 완벽 정리

이 글의 핵심

고급 정렬에 대한 실전 가이드입니다. 퀵, 병합, 힙 정렬 O(n log n) 완벽 정리 등을 예제와 함께 상세히 설명합니다.

들어가며

”O(n log n)의 세계”

고급 정렬은 분할 정복으로 O(n log n)을 달성합니다. 실무와 코딩 테스트에서 사용되는 정렬입니다.

기본 정렬 (O(n²)) vs 고급 정렬 (O(n log n)):

  • 버블, 선택, 삽입 정렬: 작은 데이터(n < 100)에 적합
  • 퀵, 병합, 힙 정렬: 큰 데이터(n > 1000)에 필수

이 글을 읽으면

  • 퀵 정렬의 피벗 선택과 분할 과정을 이해합니다
  • 병합 정렬의 분할 정복 패턴을 코드로 구현합니다
  • 힙 정렬의 in-place 특성을 활용합니다
  • 실무에서 사용되는 Timsort와 Introsort를 이해합니다

목차

  1. 퀵 정렬 (Quick Sort)
  2. 병합 정렬 (Merge Sort)
  3. 힙 정렬 (Heap Sort)
  4. 정렬 비교
  5. 실무 사례
  6. 트러블슈팅
  7. 마무리

1. 퀵 정렬 (Quick Sort)

알고리즘 원리

분할 정복:

  1. 피벗 선택 (보통 중간 또는 마지막 원소)
  2. 피벗보다 작은 원소는 왼쪽, 큰 원소는 오른쪽으로 분할
  3. 왼쪽과 오른쪽을 재귀적으로 정렬

시각화:

[5, 2, 8, 1, 9, 3]
피벗 = 5

[2, 1, 3] 5 [8, 9]
   ↓           ↓
[1, 2, 3]   [8, 9]

최종: [1, 2, 3, 5, 8, 9]

Python 구현 (새 리스트)

def quick_sort(arr):
    """
    퀵 정렬 (새 리스트 생성)
    - 읽기 쉬운 구현
    - 공간 복잡도 O(n)
    """
    if len(arr) <= 1:
        return arr
    
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    
    return quick_sort(left) + middle + quick_sort(right)

# 테스트
arr = [5, 2, 8, 1, 9, 3]
print(quick_sort(arr))  # [1, 2, 3, 5, 8, 9]

Python 구현 (In-place)

def quick_sort_inplace(arr, low, high):
    """
    퀵 정렬 (in-place)
    - 공간 복잡도 O(log n)
    - 실무에서 선호
    """
    if low < high:
        pi = partition(arr, low, high)
        quick_sort_inplace(arr, low, pi - 1)
        quick_sort_inplace(arr, pi + 1, high)

def partition(arr, low, high):
    """
    Lomuto 파티션 스킴
    - 피벗: arr[high]
    - i: 피벗보다 작은 영역의 끝
    """
    pivot = arr[high]
    i = low - 1
    
    for j in range(low, high):
        if arr[j] < pivot:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]
    
    arr[i + 1], arr[high] = arr[high], arr[i + 1]
    return i + 1

# 사용
arr = [5, 2, 8, 1, 9, 3]
quick_sort_inplace(arr, 0, len(arr) - 1)
print(arr)  # [1, 2, 3, 5, 8, 9]

C++ 구현 (In-place)

#include <vector>
#include <iostream>

void quickSort(std::vector<int>& arr, int low, int high);
int partition(std::vector<int>& arr, int low, int high);

void quickSort(std::vector<int>& arr, int low, int high) {
    if (low < high) {
        int pi = partition(arr, low, high);
        quickSort(arr, low, pi - 1);
        quickSort(arr, pi + 1, high);
    }
}

int partition(std::vector<int>& arr, int low, int high) {
    int pivot = arr[high];
    int i = low - 1;
    
    for (int j = low; j < high; ++j) {
        if (arr[j] < pivot) {
            ++i;
            std::swap(arr[i], arr[j]);
        }
    }
    
    std::swap(arr[i + 1], arr[high]);
    return i + 1;
}

int main() {
    std::vector<int> arr = {5, 2, 8, 1, 9, 3};
    quickSort(arr, 0, arr.size() - 1);
    
    for (int num : arr) {
        std::cout << num << " ";
    }
    // 출력: 1 2 3 5 8 9
    return 0;
}

시간복잡도

  • 최선: O(n log n) — 피벗이 중앙값에 가까울 때
  • 평균: O(n log n)
  • 최악: O(n²) — 이미 정렬되었거나 역순일 때
  • 공간: O(log n) — 재귀 스택
  • 안정: X (같은 값의 순서 보장 안 됨)

최악 케이스 방지

랜덤 피벗:

import random

def partition_random(arr, low, high):
    random_idx = random.randint(low, high)
    arr[random_idx], arr[high] = arr[high], arr[random_idx]
    return partition(arr, low, high)

3-way 파티션 (중복 값 많을 때):

def quick_sort_3way(arr, low, high):
    if low >= high:
        return
    
    lt, gt = low, high
    pivot = arr[low]
    i = low + 1
    
    while i <= gt:
        if arr[i] < pivot:
            arr[lt], arr[i] = arr[i], arr[lt]
            lt += 1
            i += 1
        elif arr[i] > pivot:
            arr[i], arr[gt] = arr[gt], arr[i]
            gt -= 1
        else:
            i += 1
    
    quick_sort_3way(arr, low, lt - 1)
    quick_sort_3way(arr, gt + 1, high)

2. 병합 정렬 (Merge Sort)

알고리즘 원리

분할 정복:

  1. 배열을 절반으로 분할
  2. 각 절반을 재귀적으로 정렬
  3. 정렬된 두 배열을 합병

시각화:

[5, 2, 8, 1]
   ↓ 분할
[5, 2] [8, 1]
   ↓ 분할
[5] [2] [8] [1]
   ↓ 합병
[2, 5] [1, 8]
   ↓ 합병
[1, 2, 5, 8]

Python 구현 (새 리스트)

def merge_sort(arr):
    """
    병합 정렬 (새 리스트 생성)
    - 안정 정렬
    - 항상 O(n log n)
    """
    if len(arr) <= 1:
        return arr
    
    mid = len(arr) // 2
    left = merge_sort(arr[:mid])
    right = merge_sort(arr[mid:])
    
    return merge(left, right)

def merge(left, right):
    """
    두 정렬된 배열 합병
    """
    result = []
    i = j = 0
    
    while i < len(left) and j < len(right):
        if left[i] <= right[j]:
            result.append(left[i])
            i += 1
        else:
            result.append(right[j])
            j += 1
    
    result.extend(left[i:])
    result.extend(right[j:])
    return result

# 테스트
arr = [5, 2, 8, 1, 9, 3]
print(merge_sort(arr))  # [1, 2, 3, 5, 8, 9]

Python 구현 (In-place)

def merge_sort_inplace(arr, left, right):
    """
    병합 정렬 (in-place)
    - 추가 배열 사용하지만 재귀 스택만 O(log n)
    """
    if left < right:
        mid = (left + right) // 2
        merge_sort_inplace(arr, left, mid)
        merge_sort_inplace(arr, mid + 1, right)
        merge_inplace(arr, left, mid, right)

def merge_inplace(arr, left, mid, right):
    """
    두 정렬된 구간 합병
    """
    left_arr = arr[left:mid + 1]
    right_arr = arr[mid + 1:right + 1]
    
    i = j = 0
    k = left
    
    while i < len(left_arr) and j < len(right_arr):
        if left_arr[i] <= right_arr[j]:
            arr[k] = left_arr[i]
            i += 1
        else:
            arr[k] = right_arr[j]
            j += 1
        k += 1
    
    while i < len(left_arr):
        arr[k] = left_arr[i]
        i += 1
        k += 1
    
    while j < len(right_arr):
        arr[k] = right_arr[j]
        j += 1
        k += 1

# 사용
arr = [5, 2, 8, 1, 9, 3]
merge_sort_inplace(arr, 0, len(arr) - 1)
print(arr)  # [1, 2, 3, 5, 8, 9]

C++ 구현

#include <vector>
#include <iostream>

void mergeSort(std::vector<int>& arr, int left, int right);
void merge(std::vector<int>& arr, int left, int mid, int right);

void mergeSort(std::vector<int>& arr, int left, int right) {
    if (left < right) {
        int mid = left + (right - left) / 2;
        mergeSort(arr, left, mid);
        mergeSort(arr, mid + 1, right);
        merge(arr, left, mid, right);
    }
}

void merge(std::vector<int>& arr, int left, int mid, int right) {
    std::vector<int> leftArr(arr.begin() + left, arr.begin() + mid + 1);
    std::vector<int> rightArr(arr.begin() + mid + 1, arr.begin() + right + 1);
    
    int i = 0, j = 0, k = left;
    
    while (i < leftArr.size() && j < rightArr.size()) {
        if (leftArr[i] <= rightArr[j]) {
            arr[k++] = leftArr[i++];
        } else {
            arr[k++] = rightArr[j++];
        }
    }
    
    while (i < leftArr.size()) {
        arr[k++] = leftArr[i++];
    }
    
    while (j < rightArr.size()) {
        arr[k++] = rightArr[j++];
    }
}

int main() {
    std::vector<int> arr = {5, 2, 8, 1, 9, 3};
    mergeSort(arr, 0, arr.size() - 1);
    
    for (int num : arr) {
        std::cout << num << " ";
    }
    // 출력: 1 2 3 5 8 9
    return 0;
}

시간복잡도

  • 최선: O(n log n)
  • 평균: O(n log n)
  • 최악: O(n log n) — 항상 일정!
  • 공간: O(n) — 임시 배열
  • 안정: O (같은 값의 순서 유지)

3. 힙 정렬 (Heap Sort)

알고리즘 원리

최대 힙 구조:

  1. 배열을 최대 힙으로 변환 (heapify)
  2. 루트(최대값)를 배열 끝으로 이동
  3. 힙 크기를 줄이고 다시 heapify
  4. 반복

시각화:

[5, 2, 8, 1, 9, 3]
   ↓ heapify
     9
   /   \
  5     8
 / \   /
1  2  3

추출: 9 → [5, 2, 8, 1, 3] + [9]
추출: 8 → [5, 2, 3, 1] + [8, 9]
...
최종: [1, 2, 3, 5, 8, 9]

Python 구현 (heapq 사용)

import heapq

def heap_sort(arr):
    """
    힙 정렬 (heapq 사용)
    - 최소 힙 사용
    - 공간 O(n)
    """
    heap = []
    for num in arr:
        heapq.heappush(heap, num)
    
    result = []
    while heap:
        result.append(heapq.heappop(heap))
    
    return result

# 테스트
arr = [5, 2, 8, 1, 9, 3]
print(heap_sort(arr))  # [1, 2, 3, 5, 8, 9]

Python 구현 (In-place)

def heap_sort_inplace(arr):
    """
    힙 정렬 (in-place)
    - 최대 힙 사용
    - 공간 O(1)
    """
    n = len(arr)
    
    # 최대 힙 구성
    for i in range(n // 2 - 1, -1, -1):
        heapify(arr, n, i)
    
    # 하나씩 추출
    for i in range(n - 1, 0, -1):
        arr[0], arr[i] = arr[i], arr[0]
        heapify(arr, i, 0)

def heapify(arr, n, i):
    """
    최대 힙 속성 유지
    - i: 현재 노드
    - n: 힙 크기
    """
    largest = i
    left = 2 * i + 1
    right = 2 * i + 2
    
    if left < n and arr[left] > arr[largest]:
        largest = left
    
    if right < n and arr[right] > arr[largest]:
        largest = right
    
    if largest != i:
        arr[i], arr[largest] = arr[largest], arr[i]
        heapify(arr, n, largest)

# 사용
arr = [5, 2, 8, 1, 9, 3]
heap_sort_inplace(arr)
print(arr)  # [1, 2, 3, 5, 8, 9]

C++ 구현

#include <vector>
#include <algorithm>
#include <iostream>

void heapify(std::vector<int>& arr, int n, int i);
void heapSort(std::vector<int>& arr);

void heapify(std::vector<int>& arr, int n, int i) {
    int largest = i;
    int left = 2 * i + 1;
    int right = 2 * i + 2;
    
    if (left < n && arr[left] > arr[largest]) {
        largest = left;
    }
    
    if (right < n && arr[right] > arr[largest]) {
        largest = right;
    }
    
    if (largest != i) {
        std::swap(arr[i], arr[largest]);
        heapify(arr, n, largest);
    }
}

void heapSort(std::vector<int>& arr) {
    int n = arr.size();
    
    for (int i = n / 2 - 1; i >= 0; --i) {
        heapify(arr, n, i);
    }
    
    for (int i = n - 1; i > 0; --i) {
        std::swap(arr[0], arr[i]);
        heapify(arr, i, 0);
    }
}

int main() {
    std::vector<int> arr = {5, 2, 8, 1, 9, 3};
    heapSort(arr);
    
    for (int num : arr) {
        std::cout << num << " ";
    }
    // 출력: 1 2 3 5 8 9
    return 0;
}

시간복잡도

  • 최선: O(n log n)
  • 평균: O(n log n)
  • 최악: O(n log n)
  • 공간: O(1) — in-place 가능
  • 안정: X

4. 정렬 비교

알고리즘 비교표

알고리즘최선평균최악공간안정특징
O(n log n)O(n log n)O(n²)O(log n)X평균 가장 빠름
병합O(n log n)O(n log n)O(n log n)O(n)O항상 일정
O(n log n)O(n log n)O(n log n)O(1)XIn-place
TimsortO(n)O(n log n)O(n log n)O(n)OPython 기본
IntrosortO(n log n)O(n log n)O(n log n)O(log n)XC++ 기본

선택 가이드

상황추천 정렬이유
평균 케이스 최적화캐시 효율 좋음
최악 케이스 보장병합항상 O(n log n)
메모리 제약In-place (O(1))
안정 정렬 필요병합순서 유지
실무 (Python)sorted()Timsort (최적화됨)
실무 (C++)std::sort()Introsort (최적화됨)

벤치마크 예시

테스트 환경: 100만 개 랜덤 정수

알고리즘실행 시간메모리
퀵 (랜덤 피벗)180ms8MB
병합220ms16MB
280ms8MB
Python sorted()150ms16MB
C++ std::sort()120ms8MB

결론: 실무에서는 언어 내장 정렬 사용 권장


5. 실무 사례

사례 1: K번째로 큰 수 (Quick Select)

문제: LeetCode 215 - Kth Largest Element

아이디어: 퀵 정렬의 파티션만 사용해 평균 O(n)

Python 구현

import random

class Solution:
    def findKthLargest(self, nums: list[int], k: int) -> int:
        """
        Quick Select: 평균 O(n), 최악 O(n²)
        """
        def partition(left, right):
            pivot_idx = random.randint(left, right)
            nums[pivot_idx], nums[right] = nums[right], nums[pivot_idx]
            
            pivot = nums[right]
            i = left
            
            for j in range(left, right):
                if nums[j] >= pivot:
                    nums[i], nums[j] = nums[j], nums[i]
                    i += 1
            
            nums[i], nums[right] = nums[right], nums[i]
            return i
        
        left, right = 0, len(nums) - 1
        k_idx = k - 1
        
        while left <= right:
            pi = partition(left, right)
            
            if pi == k_idx:
                return nums[pi]
            elif pi < k_idx:
                left = pi + 1
            else:
                right = pi - 1
        
        return -1

# 테스트
sol = Solution()
print(sol.findKthLargest([3, 2, 1, 5, 6, 4], 2))  # 5

시간 복잡도: 평균 O(n), 최악 O(n²)

사례 2: 정렬된 배열 합치기 (Merge K Sorted Arrays)

문제: k개의 정렬된 배열을 하나로 합치기

Python 구현 (힙 사용)

import heapq

def merge_k_sorted_arrays(arrays):
    """
    K개 정렬 배열 합병
    - 시간: O(N log k), N은 전체 원소 수
    """
    heap = []
    
    for i, arr in enumerate(arrays):
        if arr:
            heapq.heappush(heap, (arr[0], i, 0))
    
    result = []
    
    while heap:
        val, arr_idx, elem_idx = heapq.heappop(heap)
        result.append(val)
        
        if elem_idx + 1 < len(arrays[arr_idx]):
            next_val = arrays[arr_idx][elem_idx + 1]
            heapq.heappush(heap, (next_val, arr_idx, elem_idx + 1))
    
    return result

# 테스트
arrays = [
    [1, 4, 7],
    [2, 5, 8],
    [3, 6, 9]
]
print(merge_k_sorted_arrays(arrays))
# [1, 2, 3, 4, 5, 6, 7, 8, 9]

시간 복잡도: O(N log k) — N은 전체 원소 수, k는 배열 개수

사례 3: 외부 정렬 (External Sort)

시나리오: 메모리에 담을 수 없는 대용량 파일 정렬

Python 구현

import heapq
import os

def external_sort(input_file, output_file, chunk_size=1000):
    """
    외부 정렬
    1. 파일을 청크로 나눠 정렬 후 임시 파일 저장
    2. 임시 파일들을 병합 정렬
    """
    temp_files = []
    
    # 1단계: 청크 정렬
    with open(input_file, 'r') as f:
        chunk = []
        for i, line in enumerate(f):
            chunk.append(int(line.strip()))
            
            if len(chunk) >= chunk_size:
                chunk.sort()
                temp_file = f'temp_{len(temp_files)}.txt'
                with open(temp_file, 'w') as tf:
                    for num in chunk:
                        tf.write(f'{num}\n')
                temp_files.append(temp_file)
                chunk = []
        
        if chunk:
            chunk.sort()
            temp_file = f'temp_{len(temp_files)}.txt'
            with open(temp_file, 'w') as tf:
                for num in chunk:
                    tf.write(f'{num}\n')
            temp_files.append(temp_file)
    
    # 2단계: K-way 병합
    heap = []
    file_handles = []
    
    for i, temp_file in enumerate(temp_files):
        f = open(temp_file, 'r')
        file_handles.append(f)
        line = f.readline()
        if line:
            heapq.heappush(heap, (int(line.strip()), i))
    
    with open(output_file, 'w') as out:
        while heap:
            val, file_idx = heapq.heappop(heap)
            out.write(f'{val}\n')
            
            line = file_handles[file_idx].readline()
            if line:
                heapq.heappush(heap, (int(line.strip()), file_idx))
    
    # 정리
    for f in file_handles:
        f.close()
    for temp_file in temp_files:
        os.remove(temp_file)

# 사용 예시
# external_sort('large_input.txt', 'sorted_output.txt', chunk_size=10000)

시간 복잡도: O(N log N) — N은 전체 원소 수


6. 트러블슈팅

문제 1: 퀵 정렬 최악 케이스 (O(n²))

증상:

arr = list(range(100000))  # 이미 정렬됨
# 퀵 정렬 실행 → 시간 초과

원인: 피벗이 항상 최소/최대값

해결 1: 랜덤 피벗

import random

def partition_random(arr, low, high):
    random_idx = random.randint(low, high)
    arr[random_idx], arr[high] = arr[high], arr[random_idx]
    return partition(arr, low, high)

해결 2: Median-of-Three

def partition_median_of_three(arr, low, high):
    mid = (low + high) // 2
    
    # low, mid, high 중 중앙값을 high로
    if arr[low] > arr[mid]:
        arr[low], arr[mid] = arr[mid], arr[low]
    if arr[low] > arr[high]:
        arr[low], arr[high] = arr[high], arr[low]
    if arr[mid] > arr[high]:
        arr[mid], arr[high] = arr[high], arr[mid]
    
    return partition(arr, low, high)

문제 2: 병합 정렬 메모리 초과

증상: 대용량 배열에서 O(n) 추가 메모리 부담

해결: 힙 정렬 또는 In-place 병합 정렬

# In-place 병합 (복잡하지만 O(1) 공간)
def merge_inplace_optimized(arr, left, mid, right):
    # 왼쪽이 이미 정렬되어 있으면 스킵
    if arr[mid] <= arr[mid + 1]:
        return
    
    # 실제 병합 (생략 - 복잡함)
    # 실무에서는 heapq 또는 std::inplace_merge 사용

문제 3: 안정 정렬 필요

증상: 같은 값의 순서가 바뀜

# 퀵 정렬 (불안정)
arr = [(1, 'a'), (2, 'b'), (1, 'c')]
# 정렬 후: [(1, 'c'), (1, 'a'), (2, 'b')]  # 순서 바뀜

해결: 병합 정렬 또는 Python sorted()

arr = [(1, 'a'), (2, 'b'), (1, 'c')]
sorted_arr = sorted(arr, key=lambda x: x[0])
print(sorted_arr)
# [(1, 'a'), (1, 'c'), (2, 'b')]  # 순서 유지

문제 4: 재귀 깊이 초과 (RecursionError)

증상:

arr = list(range(10000))
quick_sort_inplace(arr, 0, len(arr) - 1)
# RecursionError: maximum recursion depth exceeded

해결 1: 재귀 한도 증가

import sys
sys.setrecursionlimit(20000)

해결 2: 반복문 변환

def quick_sort_iterative(arr):
    stack = [(0, len(arr) - 1)]
    
    while stack:
        low, high = stack.pop()
        if low < high:
            pi = partition(arr, low, high)
            stack.append((low, pi - 1))
            stack.append((pi + 1, high))

마무리

고급 정렬분할 정복으로 O(n log n)을 달성하는 핵심 알고리즘입니다.

정렬 선택 체크리스트

  1. 데이터 크기

    • n < 100: 삽입 정렬
    • n > 1000: 퀵/병합/힙
  2. 안정성 필요

    • 필요: 병합 정렬
    • 불필요: 퀵 정렬
  3. 메모리 제약

    • 제약 있음: 힙 정렬
    • 제약 없음: 병합 정렬
  4. 최악 케이스 보장

    • 필요: 병합/힙
    • 불필요: 퀵 (평균 빠름)

다음 단계

  • 기본 정렬: 버블, 선택, 삽입 정렬
  • 정렬 문제: 정렬 문제 풀이
  • 이진 탐색: 이진 탐색 완벽 정리

실무에서는 언어 내장 정렬(sorted(), std::sort())을 사용하되, 원리를 이해하면 커스텀 정렬이나 최적화가 필요할 때 유리합니다.