NumPy는 왜 빠른가요?

C로 구현되어 있고, 벡터화 연산을 사용하기 때문입니다. Python 리스트보다 10-100배 빠릅니다.

NumPy는 수치 계산, Pandas는 테이블 데이터 분석에 특화되어 있습니다.

브로드캐스팅은 뭔가요?

크기가 다른 배열 간 연산을 자동으로 맞춰주는 기능입니다.

NumPy 기초 | Python 수치 계산 라이브러리 완벽 정리

2026년 3월 28일 · 20분 읽기 · 수정 2026년 3월 28일 중급 튜토리얼

이 글의 핵심

NumPy 기초에 대한 실전 가이드입니다. Python 수치 계산 라이브러리 완벽 정리 등을 예제와 함께 상세히 설명합니다.

들어가며

”Python 수치 계산의 기본”

NumPy는 고성능 수치 계산을 위한 Python의 핵심 라이브러리입니다.

1. NumPy 기본

설치

pip install numpy

배열 생성

Python 리스트는 범용 장바구니에 가깝고, ndarray는 같은 타입의 숫자만 담는 격자에 가깝습니다. 아래는 리스트를 배열로 바꾸고, zeros·arange 등으로 모양을 미리 만드는 예입니다.

import numpy as np

# 리스트에서 생성
arr = np.array([1, 2, 3, 4, 5])
print(arr)  # [1 2 3 4 5]

# 2차원 배열
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)
# [[1 2 3]
#  [4 5 6]]

# 특수 배열
zeros = np.zeros((3, 4))  # 0으로 채움
ones = np.ones((2, 3))    # 1로 채움
empty = np.empty((2, 2))  # 초기화 안 함
arange = np.arange(0, 10, 2)  # [0, 2, 4, 6, 8]
linspace = np.linspace(0, 1, 5)  # [0, 0.25, 0.5, 0.75, 1]

2. 배열 연산

벡터화 연산

arr = np.array([1, 2, 3, 4, 5])

# 스칼라 연산
print(arr + 10)  # [11 12 13 14 15]
print(arr * 2)   # [2 4 6 8 10]
print(arr ** 2)  # [1 4 9 16 25]

# 배열 간 연산
arr2 = np.array([10, 20, 30, 40, 50])
print(arr + arr2)  # [11 22 33 44 55]
print(arr * arr2)  # [10 40 90 160 250]

브로드캐스팅

# 1차원 + 2차원
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr + 10)
# [[11 12 13]
#  [14 15 16]]

# 행렬 + 벡터
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])
print(matrix + vector)
# [[11 22 33]
#  [14 25 36]]

3. 배열 인덱싱

기본 인덱싱

arr = np.array([1, 2, 3, 4, 5])

print(arr[0])   # 1
print(arr[-1])  # 5
print(arr[1:4]) # [2 3 4]

# 2차원
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d[0, 0])  # 1
print(arr2d[1, :])  # [4 5 6] (1번 행 전체)
print(arr2d[:, 1])  # [2 5 8] (1번 열 전체)

불린 인덱싱

arr = np.array([1, 2, 3, 4, 5])

# 조건 필터링
mask = arr > 3
print(mask)  # [False False False True True]
print(arr[mask])  # [4 5]

# 한 줄로
print(arr[arr > 3])  # [4 5]

4. 배열 형태 변경

reshape

arr = np.arange(12)
print(arr)  # [0 1 2 3 4 5 6 7 8 9 10 11]

# 3x4 행렬로
matrix = arr.reshape(3, 4)
print(matrix)
# [[ 0  1  2  3]
#  [ 4  5  6  7]
#  [ 8  9 10 11]]

# 평탄화
flat = matrix.flatten()
print(flat)  # [0 1 2 3 4 5 6 7 8 9 10 11]

5. 통계 함수

기본 통계

arr = np.array([1, 2, 3, 4, 5])

print(np.sum(arr))   # 15
print(np.mean(arr))  # 3.0
print(np.std(arr))   # 1.414 (표준편차)
print(np.min(arr))   # 1
print(np.max(arr))   # 5

# 축 기준 연산
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(np.sum(arr2d, axis=0))  # [5 7 9] (열 합)
print(np.sum(arr2d, axis=1))  # [6 15] (행 합)

6. 선형대수

행렬 연산

# 행렬 곱
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

print(np.dot(A, B))  # 행렬 곱
# [[19 22]
#  [43 50]]

print(A @ B)  # 같은 결과 (Python 3.5+)

# 전치
print(A.T)
# [[1 3]
#  [2 4]]

# 역행렬
inv_A = np.linalg.inv(A)
print(inv_A)

# 고유값
eigenvalues, eigenvectors = np.linalg.eig(A)
print(eigenvalues)

7. 실전 예제

이미지 처리

import numpy as np

# 이미지를 배열로 (예시)
image = np.random.randint(0, 256, (100, 100, 3), dtype=np.uint8)

# 그레이스케일 변환
gray = np.mean(image, axis=2).astype(np.uint8)

# 밝기 조정
bright = np.clip(image + 50, 0, 255).astype(np.uint8)

# 이미지 크기
print(f"크기: {image.shape}")  # (100, 100, 3)

벡터화와 dtype·복사/뷰

NumPy 배열은 같은 모양의 숫자를 한꺼번에 다루는 공장 라인에 가깝습니다. Python for 루프로 하나씩 제곱하는 대신 배열 전체에 연산을 한 번에 걸면 C 쪽 구현 덕분에 훨씬 빠릅니다. copy()와 슬라이스 뷰의 차이는 결과가 원본을 바꿀지 여부와 직결됩니다.

# ✅ 벡터화 연산 사용
arr = np.arange(1000000)
result = arr ** 2  # 빠름

# ❌ 반복문 사용
result = [x ** 2 for x in arr]  # 느림

# ✅ 메모리 효율
# dtype 지정
arr = np.array([1, 2, 3], dtype=np.int32)

# ✅ 복사 vs 뷰
arr_copy = arr.copy()  # 복사
arr_view = arr[:]      # 뷰 (원본 공유)

실전 심화 보강

실전 예제: 정규화된 배치 벡터 연산 (실행 가능)

여러 벡터를 행으로 쌓은 뒤 행별 L2 정규화를 벡터화로 수행합니다. 딥러닝 전처리에서 자주 쓰는 패턴입니다.

import numpy as np

rng = np.random.default_rng(0)
X = rng.normal(size=(5, 3))
norms = np.linalg.norm(X, axis=1, keepdims=True)
Xn = X / np.clip(norms, 1e-12, None)
print(np.linalg.norm(Xn, axis=1))
# 모두 1에 가깝게

자주 하는 실수

axis를 착각해 의도와 다른 차원으로 합/평균을 내는 경우.
뷰와 복사를 구분하지 못해 원본 배열이 의도치 않게 바뀌는 경우.
정수 오버플로가 가능한 dtype으로 누적합을 하는 경우.

주의사항

부동소수점은 결합법칙이 성립하지 않습니다. 대규모 합산은 float64나 math.fsum 패턴을 검토하세요.

실무에서는 이렇게

메모리가 빠듯하면 out= 인자로 버퍼를 재사용합니다.
Pandas와 섞을 때는 values vs 인덱스 정렬을 항상 확인합니다.

비교 및 대안

라이브러리	용도
NumPy	배열 연산, BLAS/LAPACK
Numba	핫루프 JIT
JAX/PyTorch	자미·GPU

추가 리소스

정리

핵심 요약

NumPy: 고성능 수치 계산
ndarray: N차원 배열
벡터화: 반복문 없이 연산
브로드캐스팅: 크기 자동 맞춤
선형대수: 행렬 연산, 고유값

다음 단계

Matplotlib 시각화
데이터 전처리

Pandas 기초 | Python 데이터 분석 라이브러리 완벽 정리