고급 정렬 | 퀵, 병합, 힙 정렬 O(n log n) 완벽 정리
이 글의 핵심
고급 정렬에 대한 실전 가이드입니다. 퀵, 병합, 힙 정렬 O(n log n) 완벽 정리 등을 예제와 함께 상세히 설명합니다.
들어가며
”O(n log n)의 세계”
고급 정렬은 분할 정복으로 O(n log n)을 달성합니다. 실무와 코딩 테스트에서 사용되는 정렬입니다.
기본 정렬 (O(n²)) vs 고급 정렬 (O(n log n)):
- 버블, 선택, 삽입 정렬: 작은 데이터(n < 100)에 적합
- 퀵, 병합, 힙 정렬: 큰 데이터(n > 1000)에 필수
이 글을 읽으면
- 퀵 정렬의 피벗 선택과 분할 과정을 이해합니다
- 병합 정렬의 분할 정복 패턴을 코드로 구현합니다
- 힙 정렬의 in-place 특성을 활용합니다
- 실무에서 사용되는 Timsort와 Introsort를 이해합니다
목차
1. 퀵 정렬 (Quick Sort)
알고리즘 원리
분할 정복:
- 피벗 선택 (보통 중간 또는 마지막 원소)
- 피벗보다 작은 원소는 왼쪽, 큰 원소는 오른쪽으로 분할
- 왼쪽과 오른쪽을 재귀적으로 정렬
시각화:
[5, 2, 8, 1, 9, 3]
피벗 = 5
[2, 1, 3] 5 [8, 9]
↓ ↓
[1, 2, 3] [8, 9]
최종: [1, 2, 3, 5, 8, 9]
Python 구현 (새 리스트)
def quick_sort(arr):
"""
퀵 정렬 (새 리스트 생성)
- 읽기 쉬운 구현
- 공간 복잡도 O(n)
"""
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quick_sort(left) + middle + quick_sort(right)
# 테스트
arr = [5, 2, 8, 1, 9, 3]
print(quick_sort(arr)) # [1, 2, 3, 5, 8, 9]
Python 구현 (In-place)
def quick_sort_inplace(arr, low, high):
"""
퀵 정렬 (in-place)
- 공간 복잡도 O(log n)
- 실무에서 선호
"""
if low < high:
pi = partition(arr, low, high)
quick_sort_inplace(arr, low, pi - 1)
quick_sort_inplace(arr, pi + 1, high)
def partition(arr, low, high):
"""
Lomuto 파티션 스킴
- 피벗: arr[high]
- i: 피벗보다 작은 영역의 끝
"""
pivot = arr[high]
i = low - 1
for j in range(low, high):
if arr[j] < pivot:
i += 1
arr[i], arr[j] = arr[j], arr[i]
arr[i + 1], arr[high] = arr[high], arr[i + 1]
return i + 1
# 사용
arr = [5, 2, 8, 1, 9, 3]
quick_sort_inplace(arr, 0, len(arr) - 1)
print(arr) # [1, 2, 3, 5, 8, 9]
C++ 구현 (In-place)
#include <vector>
#include <iostream>
void quickSort(std::vector<int>& arr, int low, int high);
int partition(std::vector<int>& arr, int low, int high);
void quickSort(std::vector<int>& arr, int low, int high) {
if (low < high) {
int pi = partition(arr, low, high);
quickSort(arr, low, pi - 1);
quickSort(arr, pi + 1, high);
}
}
int partition(std::vector<int>& arr, int low, int high) {
int pivot = arr[high];
int i = low - 1;
for (int j = low; j < high; ++j) {
if (arr[j] < pivot) {
++i;
std::swap(arr[i], arr[j]);
}
}
std::swap(arr[i + 1], arr[high]);
return i + 1;
}
int main() {
std::vector<int> arr = {5, 2, 8, 1, 9, 3};
quickSort(arr, 0, arr.size() - 1);
for (int num : arr) {
std::cout << num << " ";
}
// 출력: 1 2 3 5 8 9
return 0;
}
시간복잡도
- 최선: O(n log n) — 피벗이 중앙값에 가까울 때
- 평균: O(n log n)
- 최악: O(n²) — 이미 정렬되었거나 역순일 때
- 공간: O(log n) — 재귀 스택
- 안정: X (같은 값의 순서 보장 안 됨)
최악 케이스 방지
랜덤 피벗:
import random
def partition_random(arr, low, high):
random_idx = random.randint(low, high)
arr[random_idx], arr[high] = arr[high], arr[random_idx]
return partition(arr, low, high)
3-way 파티션 (중복 값 많을 때):
def quick_sort_3way(arr, low, high):
if low >= high:
return
lt, gt = low, high
pivot = arr[low]
i = low + 1
while i <= gt:
if arr[i] < pivot:
arr[lt], arr[i] = arr[i], arr[lt]
lt += 1
i += 1
elif arr[i] > pivot:
arr[i], arr[gt] = arr[gt], arr[i]
gt -= 1
else:
i += 1
quick_sort_3way(arr, low, lt - 1)
quick_sort_3way(arr, gt + 1, high)
2. 병합 정렬 (Merge Sort)
알고리즘 원리
분할 정복:
- 배열을 절반으로 분할
- 각 절반을 재귀적으로 정렬
- 정렬된 두 배열을 합병
시각화:
[5, 2, 8, 1]
↓ 분할
[5, 2] [8, 1]
↓ 분할
[5] [2] [8] [1]
↓ 합병
[2, 5] [1, 8]
↓ 합병
[1, 2, 5, 8]
Python 구현 (새 리스트)
def merge_sort(arr):
"""
병합 정렬 (새 리스트 생성)
- 안정 정렬
- 항상 O(n log n)
"""
if len(arr) <= 1:
return arr
mid = len(arr) // 2
left = merge_sort(arr[:mid])
right = merge_sort(arr[mid:])
return merge(left, right)
def merge(left, right):
"""
두 정렬된 배열 합병
"""
result = []
i = j = 0
while i < len(left) and j < len(right):
if left[i] <= right[j]:
result.append(left[i])
i += 1
else:
result.append(right[j])
j += 1
result.extend(left[i:])
result.extend(right[j:])
return result
# 테스트
arr = [5, 2, 8, 1, 9, 3]
print(merge_sort(arr)) # [1, 2, 3, 5, 8, 9]
Python 구현 (In-place)
def merge_sort_inplace(arr, left, right):
"""
병합 정렬 (in-place)
- 추가 배열 사용하지만 재귀 스택만 O(log n)
"""
if left < right:
mid = (left + right) // 2
merge_sort_inplace(arr, left, mid)
merge_sort_inplace(arr, mid + 1, right)
merge_inplace(arr, left, mid, right)
def merge_inplace(arr, left, mid, right):
"""
두 정렬된 구간 합병
"""
left_arr = arr[left:mid + 1]
right_arr = arr[mid + 1:right + 1]
i = j = 0
k = left
while i < len(left_arr) and j < len(right_arr):
if left_arr[i] <= right_arr[j]:
arr[k] = left_arr[i]
i += 1
else:
arr[k] = right_arr[j]
j += 1
k += 1
while i < len(left_arr):
arr[k] = left_arr[i]
i += 1
k += 1
while j < len(right_arr):
arr[k] = right_arr[j]
j += 1
k += 1
# 사용
arr = [5, 2, 8, 1, 9, 3]
merge_sort_inplace(arr, 0, len(arr) - 1)
print(arr) # [1, 2, 3, 5, 8, 9]
C++ 구현
#include <vector>
#include <iostream>
void mergeSort(std::vector<int>& arr, int left, int right);
void merge(std::vector<int>& arr, int left, int mid, int right);
void mergeSort(std::vector<int>& arr, int left, int right) {
if (left < right) {
int mid = left + (right - left) / 2;
mergeSort(arr, left, mid);
mergeSort(arr, mid + 1, right);
merge(arr, left, mid, right);
}
}
void merge(std::vector<int>& arr, int left, int mid, int right) {
std::vector<int> leftArr(arr.begin() + left, arr.begin() + mid + 1);
std::vector<int> rightArr(arr.begin() + mid + 1, arr.begin() + right + 1);
int i = 0, j = 0, k = left;
while (i < leftArr.size() && j < rightArr.size()) {
if (leftArr[i] <= rightArr[j]) {
arr[k++] = leftArr[i++];
} else {
arr[k++] = rightArr[j++];
}
}
while (i < leftArr.size()) {
arr[k++] = leftArr[i++];
}
while (j < rightArr.size()) {
arr[k++] = rightArr[j++];
}
}
int main() {
std::vector<int> arr = {5, 2, 8, 1, 9, 3};
mergeSort(arr, 0, arr.size() - 1);
for (int num : arr) {
std::cout << num << " ";
}
// 출력: 1 2 3 5 8 9
return 0;
}
시간복잡도
- 최선: O(n log n)
- 평균: O(n log n)
- 최악: O(n log n) — 항상 일정!
- 공간: O(n) — 임시 배열
- 안정: O (같은 값의 순서 유지)
3. 힙 정렬 (Heap Sort)
알고리즘 원리
최대 힙 구조:
- 배열을 최대 힙으로 변환 (heapify)
- 루트(최대값)를 배열 끝으로 이동
- 힙 크기를 줄이고 다시 heapify
- 반복
시각화:
[5, 2, 8, 1, 9, 3]
↓ heapify
9
/ \
5 8
/ \ /
1 2 3
추출: 9 → [5, 2, 8, 1, 3] + [9]
추출: 8 → [5, 2, 3, 1] + [8, 9]
...
최종: [1, 2, 3, 5, 8, 9]
Python 구현 (heapq 사용)
import heapq
def heap_sort(arr):
"""
힙 정렬 (heapq 사용)
- 최소 힙 사용
- 공간 O(n)
"""
heap = []
for num in arr:
heapq.heappush(heap, num)
result = []
while heap:
result.append(heapq.heappop(heap))
return result
# 테스트
arr = [5, 2, 8, 1, 9, 3]
print(heap_sort(arr)) # [1, 2, 3, 5, 8, 9]
Python 구현 (In-place)
def heap_sort_inplace(arr):
"""
힙 정렬 (in-place)
- 최대 힙 사용
- 공간 O(1)
"""
n = len(arr)
# 최대 힙 구성
for i in range(n // 2 - 1, -1, -1):
heapify(arr, n, i)
# 하나씩 추출
for i in range(n - 1, 0, -1):
arr[0], arr[i] = arr[i], arr[0]
heapify(arr, i, 0)
def heapify(arr, n, i):
"""
최대 힙 속성 유지
- i: 현재 노드
- n: 힙 크기
"""
largest = i
left = 2 * i + 1
right = 2 * i + 2
if left < n and arr[left] > arr[largest]:
largest = left
if right < n and arr[right] > arr[largest]:
largest = right
if largest != i:
arr[i], arr[largest] = arr[largest], arr[i]
heapify(arr, n, largest)
# 사용
arr = [5, 2, 8, 1, 9, 3]
heap_sort_inplace(arr)
print(arr) # [1, 2, 3, 5, 8, 9]
C++ 구현
#include <vector>
#include <algorithm>
#include <iostream>
void heapify(std::vector<int>& arr, int n, int i);
void heapSort(std::vector<int>& arr);
void heapify(std::vector<int>& arr, int n, int i) {
int largest = i;
int left = 2 * i + 1;
int right = 2 * i + 2;
if (left < n && arr[left] > arr[largest]) {
largest = left;
}
if (right < n && arr[right] > arr[largest]) {
largest = right;
}
if (largest != i) {
std::swap(arr[i], arr[largest]);
heapify(arr, n, largest);
}
}
void heapSort(std::vector<int>& arr) {
int n = arr.size();
for (int i = n / 2 - 1; i >= 0; --i) {
heapify(arr, n, i);
}
for (int i = n - 1; i > 0; --i) {
std::swap(arr[0], arr[i]);
heapify(arr, i, 0);
}
}
int main() {
std::vector<int> arr = {5, 2, 8, 1, 9, 3};
heapSort(arr);
for (int num : arr) {
std::cout << num << " ";
}
// 출력: 1 2 3 5 8 9
return 0;
}
시간복잡도
- 최선: O(n log n)
- 평균: O(n log n)
- 최악: O(n log n)
- 공간: O(1) — in-place 가능
- 안정: X
4. 정렬 비교
알고리즘 비교표
| 알고리즘 | 최선 | 평균 | 최악 | 공간 | 안정 | 특징 |
|---|---|---|---|---|---|---|
| 퀵 | O(n log n) | O(n log n) | O(n²) | O(log n) | X | 평균 가장 빠름 |
| 병합 | O(n log n) | O(n log n) | O(n log n) | O(n) | O | 항상 일정 |
| 힙 | O(n log n) | O(n log n) | O(n log n) | O(1) | X | In-place |
| Timsort | O(n) | O(n log n) | O(n log n) | O(n) | O | Python 기본 |
| Introsort | O(n log n) | O(n log n) | O(n log n) | O(log n) | X | C++ 기본 |
선택 가이드
| 상황 | 추천 정렬 | 이유 |
|---|---|---|
| 평균 케이스 최적화 | 퀵 | 캐시 효율 좋음 |
| 최악 케이스 보장 | 병합 | 항상 O(n log n) |
| 메모리 제약 | 힙 | In-place (O(1)) |
| 안정 정렬 필요 | 병합 | 순서 유지 |
| 실무 (Python) | sorted() | Timsort (최적화됨) |
| 실무 (C++) | std::sort() | Introsort (최적화됨) |
벤치마크 예시
테스트 환경: 100만 개 랜덤 정수
| 알고리즘 | 실행 시간 | 메모리 |
|---|---|---|
| 퀵 (랜덤 피벗) | 180ms | 8MB |
| 병합 | 220ms | 16MB |
| 힙 | 280ms | 8MB |
Python sorted() | 150ms | 16MB |
C++ std::sort() | 120ms | 8MB |
결론: 실무에서는 언어 내장 정렬 사용 권장
5. 실무 사례
사례 1: K번째로 큰 수 (Quick Select)
문제: LeetCode 215 - Kth Largest Element
아이디어: 퀵 정렬의 파티션만 사용해 평균 O(n)
Python 구현
import random
class Solution:
def findKthLargest(self, nums: list[int], k: int) -> int:
"""
Quick Select: 평균 O(n), 최악 O(n²)
"""
def partition(left, right):
pivot_idx = random.randint(left, right)
nums[pivot_idx], nums[right] = nums[right], nums[pivot_idx]
pivot = nums[right]
i = left
for j in range(left, right):
if nums[j] >= pivot:
nums[i], nums[j] = nums[j], nums[i]
i += 1
nums[i], nums[right] = nums[right], nums[i]
return i
left, right = 0, len(nums) - 1
k_idx = k - 1
while left <= right:
pi = partition(left, right)
if pi == k_idx:
return nums[pi]
elif pi < k_idx:
left = pi + 1
else:
right = pi - 1
return -1
# 테스트
sol = Solution()
print(sol.findKthLargest([3, 2, 1, 5, 6, 4], 2)) # 5
시간 복잡도: 평균 O(n), 최악 O(n²)
사례 2: 정렬된 배열 합치기 (Merge K Sorted Arrays)
문제: k개의 정렬된 배열을 하나로 합치기
Python 구현 (힙 사용)
import heapq
def merge_k_sorted_arrays(arrays):
"""
K개 정렬 배열 합병
- 시간: O(N log k), N은 전체 원소 수
"""
heap = []
for i, arr in enumerate(arrays):
if arr:
heapq.heappush(heap, (arr[0], i, 0))
result = []
while heap:
val, arr_idx, elem_idx = heapq.heappop(heap)
result.append(val)
if elem_idx + 1 < len(arrays[arr_idx]):
next_val = arrays[arr_idx][elem_idx + 1]
heapq.heappush(heap, (next_val, arr_idx, elem_idx + 1))
return result
# 테스트
arrays = [
[1, 4, 7],
[2, 5, 8],
[3, 6, 9]
]
print(merge_k_sorted_arrays(arrays))
# [1, 2, 3, 4, 5, 6, 7, 8, 9]
시간 복잡도: O(N log k) — N은 전체 원소 수, k는 배열 개수
사례 3: 외부 정렬 (External Sort)
시나리오: 메모리에 담을 수 없는 대용량 파일 정렬
Python 구현
import heapq
import os
def external_sort(input_file, output_file, chunk_size=1000):
"""
외부 정렬
1. 파일을 청크로 나눠 정렬 후 임시 파일 저장
2. 임시 파일들을 병합 정렬
"""
temp_files = []
# 1단계: 청크 정렬
with open(input_file, 'r') as f:
chunk = []
for i, line in enumerate(f):
chunk.append(int(line.strip()))
if len(chunk) >= chunk_size:
chunk.sort()
temp_file = f'temp_{len(temp_files)}.txt'
with open(temp_file, 'w') as tf:
for num in chunk:
tf.write(f'{num}\n')
temp_files.append(temp_file)
chunk = []
if chunk:
chunk.sort()
temp_file = f'temp_{len(temp_files)}.txt'
with open(temp_file, 'w') as tf:
for num in chunk:
tf.write(f'{num}\n')
temp_files.append(temp_file)
# 2단계: K-way 병합
heap = []
file_handles = []
for i, temp_file in enumerate(temp_files):
f = open(temp_file, 'r')
file_handles.append(f)
line = f.readline()
if line:
heapq.heappush(heap, (int(line.strip()), i))
with open(output_file, 'w') as out:
while heap:
val, file_idx = heapq.heappop(heap)
out.write(f'{val}\n')
line = file_handles[file_idx].readline()
if line:
heapq.heappush(heap, (int(line.strip()), file_idx))
# 정리
for f in file_handles:
f.close()
for temp_file in temp_files:
os.remove(temp_file)
# 사용 예시
# external_sort('large_input.txt', 'sorted_output.txt', chunk_size=10000)
시간 복잡도: O(N log N) — N은 전체 원소 수
6. 트러블슈팅
문제 1: 퀵 정렬 최악 케이스 (O(n²))
증상:
arr = list(range(100000)) # 이미 정렬됨
# 퀵 정렬 실행 → 시간 초과
원인: 피벗이 항상 최소/최대값
해결 1: 랜덤 피벗
import random
def partition_random(arr, low, high):
random_idx = random.randint(low, high)
arr[random_idx], arr[high] = arr[high], arr[random_idx]
return partition(arr, low, high)
해결 2: Median-of-Three
def partition_median_of_three(arr, low, high):
mid = (low + high) // 2
# low, mid, high 중 중앙값을 high로
if arr[low] > arr[mid]:
arr[low], arr[mid] = arr[mid], arr[low]
if arr[low] > arr[high]:
arr[low], arr[high] = arr[high], arr[low]
if arr[mid] > arr[high]:
arr[mid], arr[high] = arr[high], arr[mid]
return partition(arr, low, high)
문제 2: 병합 정렬 메모리 초과
증상: 대용량 배열에서 O(n) 추가 메모리 부담
해결: 힙 정렬 또는 In-place 병합 정렬
# In-place 병합 (복잡하지만 O(1) 공간)
def merge_inplace_optimized(arr, left, mid, right):
# 왼쪽이 이미 정렬되어 있으면 스킵
if arr[mid] <= arr[mid + 1]:
return
# 실제 병합 (생략 - 복잡함)
# 실무에서는 heapq 또는 std::inplace_merge 사용
문제 3: 안정 정렬 필요
증상: 같은 값의 순서가 바뀜
# 퀵 정렬 (불안정)
arr = [(1, 'a'), (2, 'b'), (1, 'c')]
# 정렬 후: [(1, 'c'), (1, 'a'), (2, 'b')] # 순서 바뀜
해결: 병합 정렬 또는 Python sorted()
arr = [(1, 'a'), (2, 'b'), (1, 'c')]
sorted_arr = sorted(arr, key=lambda x: x[0])
print(sorted_arr)
# [(1, 'a'), (1, 'c'), (2, 'b')] # 순서 유지
문제 4: 재귀 깊이 초과 (RecursionError)
증상:
arr = list(range(10000))
quick_sort_inplace(arr, 0, len(arr) - 1)
# RecursionError: maximum recursion depth exceeded
해결 1: 재귀 한도 증가
import sys
sys.setrecursionlimit(20000)
해결 2: 반복문 변환
def quick_sort_iterative(arr):
stack = [(0, len(arr) - 1)]
while stack:
low, high = stack.pop()
if low < high:
pi = partition(arr, low, high)
stack.append((low, pi - 1))
stack.append((pi + 1, high))
마무리
고급 정렬은 분할 정복으로 O(n log n)을 달성하는 핵심 알고리즘입니다.
정렬 선택 체크리스트
-
데이터 크기
- n < 100: 삽입 정렬
- n > 1000: 퀵/병합/힙
-
안정성 필요
- 필요: 병합 정렬
- 불필요: 퀵 정렬
-
메모리 제약
- 제약 있음: 힙 정렬
- 제약 없음: 병합 정렬
-
최악 케이스 보장
- 필요: 병합/힙
- 불필요: 퀵 (평균 빠름)
다음 단계
- 기본 정렬: 버블, 선택, 삽입 정렬
- 정렬 문제: 정렬 문제 풀이
- 이진 탐색: 이진 탐색 완벽 정리
실무에서는 언어 내장 정렬(sorted(), std::sort())을 사용하되, 원리를 이해하면 커스텀 정렬이나 최적화가 필요할 때 유리합니다.