NumPy 기초 | Python 수치 계산 라이브러리 완벽 정리
이 글의 핵심
NumPy 기초에 대한 실전 가이드입니다. Python 수치 계산 라이브러리 완벽 정리 등을 예제와 함께 상세히 설명합니다.
들어가며
”Python 수치 계산의 기본”
NumPy는 고성능 수치 계산을 위한 Python의 핵심 라이브러리입니다.
1. NumPy 기본
설치
pip install numpy
배열 생성
Python 리스트는 범용 장바구니에 가깝고, ndarray는 같은 타입의 숫자만 담는 격자에 가깝습니다. 아래는 리스트를 배열로 바꾸고, zeros·arange 등으로 모양을 미리 만드는 예입니다.
import numpy as np
# 리스트에서 생성
arr = np.array([1, 2, 3, 4, 5])
print(arr) # [1 2 3 4 5]
# 2차원 배열
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)
# [[1 2 3]
# [4 5 6]]
# 특수 배열
zeros = np.zeros((3, 4)) # 0으로 채움
ones = np.ones((2, 3)) # 1로 채움
empty = np.empty((2, 2)) # 초기화 안 함
arange = np.arange(0, 10, 2) # [0, 2, 4, 6, 8]
linspace = np.linspace(0, 1, 5) # [0, 0.25, 0.5, 0.75, 1]
2. 배열 연산
벡터화 연산
arr = np.array([1, 2, 3, 4, 5])
# 스칼라 연산
print(arr + 10) # [11 12 13 14 15]
print(arr * 2) # [2 4 6 8 10]
print(arr ** 2) # [1 4 9 16 25]
# 배열 간 연산
arr2 = np.array([10, 20, 30, 40, 50])
print(arr + arr2) # [11 22 33 44 55]
print(arr * arr2) # [10 40 90 160 250]
브로드캐스팅
# 1차원 + 2차원
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr + 10)
# [[11 12 13]
# [14 15 16]]
# 행렬 + 벡터
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])
print(matrix + vector)
# [[11 22 33]
# [14 25 36]]
3. 배열 인덱싱
기본 인덱싱
arr = np.array([1, 2, 3, 4, 5])
print(arr[0]) # 1
print(arr[-1]) # 5
print(arr[1:4]) # [2 3 4]
# 2차원
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d[0, 0]) # 1
print(arr2d[1, :]) # [4 5 6] (1번 행 전체)
print(arr2d[:, 1]) # [2 5 8] (1번 열 전체)
불린 인덱싱
arr = np.array([1, 2, 3, 4, 5])
# 조건 필터링
mask = arr > 3
print(mask) # [False False False True True]
print(arr[mask]) # [4 5]
# 한 줄로
print(arr[arr > 3]) # [4 5]
4. 배열 형태 변경
reshape
arr = np.arange(12)
print(arr) # [0 1 2 3 4 5 6 7 8 9 10 11]
# 3x4 행렬로
matrix = arr.reshape(3, 4)
print(matrix)
# [[ 0 1 2 3]
# [ 4 5 6 7]
# [ 8 9 10 11]]
# 평탄화
flat = matrix.flatten()
print(flat) # [0 1 2 3 4 5 6 7 8 9 10 11]
5. 통계 함수
기본 통계
arr = np.array([1, 2, 3, 4, 5])
print(np.sum(arr)) # 15
print(np.mean(arr)) # 3.0
print(np.std(arr)) # 1.414 (표준편차)
print(np.min(arr)) # 1
print(np.max(arr)) # 5
# 축 기준 연산
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(np.sum(arr2d, axis=0)) # [5 7 9] (열 합)
print(np.sum(arr2d, axis=1)) # [6 15] (행 합)
6. 선형대수
행렬 연산
# 행렬 곱
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print(np.dot(A, B)) # 행렬 곱
# [[19 22]
# [43 50]]
print(A @ B) # 같은 결과 (Python 3.5+)
# 전치
print(A.T)
# [[1 3]
# [2 4]]
# 역행렬
inv_A = np.linalg.inv(A)
print(inv_A)
# 고유값
eigenvalues, eigenvectors = np.linalg.eig(A)
print(eigenvalues)
7. 실전 예제
이미지 처리
import numpy as np
# 이미지를 배열로 (예시)
image = np.random.randint(0, 256, (100, 100, 3), dtype=np.uint8)
# 그레이스케일 변환
gray = np.mean(image, axis=2).astype(np.uint8)
# 밝기 조정
bright = np.clip(image + 50, 0, 255).astype(np.uint8)
# 이미지 크기
print(f"크기: {image.shape}") # (100, 100, 3)
벡터화와 dtype·복사/뷰
NumPy 배열은 같은 모양의 숫자를 한꺼번에 다루는 공장 라인에 가깝습니다. Python for 루프로 하나씩 제곱하는 대신 배열 전체에 연산을 한 번에 걸면 C 쪽 구현 덕분에 훨씬 빠릅니다. copy()와 슬라이스 뷰의 차이는 결과가 원본을 바꿀지 여부와 직결됩니다.
# ✅ 벡터화 연산 사용
arr = np.arange(1000000)
result = arr ** 2 # 빠름
# ❌ 반복문 사용
result = [x ** 2 for x in arr] # 느림
# ✅ 메모리 효율
# dtype 지정
arr = np.array([1, 2, 3], dtype=np.int32)
# ✅ 복사 vs 뷰
arr_copy = arr.copy() # 복사
arr_view = arr[:] # 뷰 (원본 공유)
실전 심화 보강
실전 예제: 정규화된 배치 벡터 연산 (실행 가능)
여러 벡터를 행으로 쌓은 뒤 행별 L2 정규화를 벡터화로 수행합니다. 딥러닝 전처리에서 자주 쓰는 패턴입니다.
import numpy as np
rng = np.random.default_rng(0)
X = rng.normal(size=(5, 3))
norms = np.linalg.norm(X, axis=1, keepdims=True)
Xn = X / np.clip(norms, 1e-12, None)
print(np.linalg.norm(Xn, axis=1))
# 모두 1에 가깝게
자주 하는 실수
axis를 착각해 의도와 다른 차원으로 합/평균을 내는 경우.- 뷰와 복사를 구분하지 못해 원본 배열이 의도치 않게 바뀌는 경우.
- 정수 오버플로가 가능한
dtype으로 누적합을 하는 경우.
주의사항
- 부동소수점은 결합법칙이 성립하지 않습니다. 대규모 합산은
float64나math.fsum패턴을 검토하세요.
실무에서는 이렇게
- 메모리가 빠듯하면
out=인자로 버퍼를 재사용합니다. - Pandas와 섞을 때는
valuesvs 인덱스 정렬을 항상 확인합니다.
비교 및 대안
| 라이브러리 | 용도 |
|---|---|
| NumPy | 배열 연산, BLAS/LAPACK |
| Numba | 핫루프 JIT |
| JAX/PyTorch | 자미·GPU |
추가 리소스
정리
핵심 요약
- NumPy: 고성능 수치 계산
- ndarray: N차원 배열
- 벡터화: 반복문 없이 연산
- 브로드캐스팅: 크기 자동 맞춤
- 선형대수: 행렬 연산, 고유값
다음 단계
- Matplotlib 시각화
- 데이터 전처리
관련 글
- Pandas 기초 | Python 데이터 분석 라이브러리 완벽 정리