NumPy 기초 | Python 수치 계산 라이브러리 완벽 정리
이 글의 핵심
NumPy 기초: Python 수치 계산 라이브러리 NumPy 기본·배열 연산.
들어가며
”Python 수치 계산의 기본”
NumPy는 고성능 수치 계산을 위한 Python의 핵심 라이브러리입니다.
실무 활용 사례: 데이터 분석, 웹 개발, 자동화 프로젝트에서 실제로 사용한 패턴과 코드를 바탕으로 정리했습니다. 초보자가 흔히 겪는 오류와 해결법을 포함합니다.
1. NumPy 기본
설치
pip install numpy
배열 생성
Python 리스트는 범용 장바구니에 가깝고, ndarray는 같은 타입의 숫자만 담는 격자에 가깝습니다. 아래는 리스트를 배열로 바꾸고, zeros·arange 등으로 모양을 미리 만드는 예입니다.
import numpy as np
# 리스트에서 생성
arr = np.array([1, 2, 3, 4, 5])
print(arr) # [1 2 3 4 5]
# 2차원 배열
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d)
# [[1 2 3]
# [4 5 6]]
# 특수 배열
zeros = np.zeros((3, 4)) # 0으로 채움
ones = np.ones((2, 3)) # 1로 채움
empty = np.empty((2, 2)) # 초기화 안 함
arange = np.arange(0, 10, 2) # [0, 2, 4, 6, 8]
linspace = np.linspace(0, 1, 5) # [0, 0.25, 0.5, 0.75, 1]
2. 배열 연산
벡터화 연산
arr = np.array([1, 2, 3, 4, 5])
# 스칼라 연산
print(arr + 10) # [11 12 13 14 15]
print(arr * 2) # [2 4 6 8 10]
print(arr ** 2) # [1 4 9 16 25]
# 배열 간 연산
arr2 = np.array([10, 20, 30, 40, 50])
print(arr + arr2) # [11 22 33 44 55]
print(arr * arr2) # [10 40 90 160 250]
브로드캐스팅
# 1차원 + 2차원
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr + 10)
# [[11 12 13]
# [14 15 16]]
# 행렬 + 벡터
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])
print(matrix + vector)
# [[11 22 33]
# [14 25 36]]
3. 배열 인덱싱
기본 인덱싱
arr = np.array([1, 2, 3, 4, 5])
print(arr[0]) # 1
print(arr[-1]) # 5
print(arr[1:4]) # [2 3 4]
# 2차원
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d[0, 0]) # 1
print(arr2d[1, :]) # [4 5 6] (1번 행 전체)
print(arr2d[:, 1]) # [2 5 8] (1번 열 전체)
불린 인덱싱
arr = np.array([1, 2, 3, 4, 5])
# 조건 필터링
mask = arr > 3
print(mask) # [False False False True True]
print(arr[mask]) # [4 5]
# 한 줄로
print(arr[arr > 3]) # [4 5]
4. 배열 형태 변경
reshape
arr = np.arange(12)
print(arr) # [0 1 2 3 4 5 6 7 8 9 10 11]
# 3x4 행렬로
matrix = arr.reshape(3, 4)
print(matrix)
# [[ 0 1 2 3]
# [ 4 5 6 7]
# [ 8 9 10 11]]
# 평탄화
flat = matrix.flatten()
print(flat) # [0 1 2 3 4 5 6 7 8 9 10 11]
5. 통계 함수
기본 통계
arr = np.array([1, 2, 3, 4, 5])
print(np.sum(arr)) # 15
print(np.mean(arr)) # 3.0
print(np.std(arr)) # 1.414 (표준편차)
print(np.min(arr)) # 1
print(np.max(arr)) # 5
# 축 기준 연산
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(np.sum(arr2d, axis=0)) # [5 7 9] (열 합)
print(np.sum(arr2d, axis=1)) # [6 15] (행 합)
6. 선형대수
행렬 연산
# 행렬 곱
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print(np.dot(A, B)) # 행렬 곱
# [[19 22]
# [43 50]]
print(A @ B) # 같은 결과 (Python 3.5+)
# 전치
print(A.T)
# [[1 3]
# [2 4]]
# 역행렬
inv_A = np.linalg.inv(A)
print(inv_A)
# 고유값
eigenvalues, eigenvectors = np.linalg.eig(A)
print(eigenvalues)
7. 실전 예제
이미지 처리
import numpy as np
# 이미지를 배열로 (예시)
image = np.random.randint(0, 256, (100, 100, 3), dtype=np.uint8)
# 그레이스케일 변환
gray = np.mean(image, axis=2).astype(np.uint8)
# 밝기 조정
bright = np.clip(image + 50, 0, 255).astype(np.uint8)
# 이미지 크기
print(f"크기: {image.shape}") # (100, 100, 3)
벡터화와 dtype·복사/뷰
NumPy 배열은 같은 모양의 숫자를 한꺼번에 다루는 공장 라인에 가깝습니다. Python for 루프로 하나씩 제곱하는 대신 배열 전체에 연산을 한 번에 걸면 C 쪽 구현 덕분에 훨씬 빠릅니다. copy()와 슬라이스 뷰의 차이는 결과가 원본을 바꿀지 여부와 직결됩니다.
# ✅ 벡터화 연산 사용
arr = np.arange(1000000)
result = arr ** 2 # 빠름
# ❌ 반복문 사용
result = [x ** 2 for x in arr] # 느림
# ✅ 메모리 효율
# dtype 지정
arr = np.array([1, 2, 3], dtype=np.int32)
# ✅ 복사 vs 뷰
arr_copy = arr.copy() # 복사
arr_view = arr[:] # 뷰 (원본 공유)
실전 심화 보강
실전 예제: 정규화된 배치 벡터 연산 (실행 가능)
여러 벡터를 행으로 쌓은 뒤 행별 L2 정규화를 벡터화로 수행합니다. 딥러닝 전처리에서 자주 쓰는 패턴입니다.
import numpy as np
rng = np.random.default_rng(0)
X = rng.normal(size=(5, 3))
norms = np.linalg.norm(X, axis=1, keepdims=True)
Xn = X / np.clip(norms, 1e-12, None)
print(np.linalg.norm(Xn, axis=1))
# 모두 1에 가깝게
자주 하는 실수
axis를 착각해 의도와 다른 차원으로 합/평균을 내는 경우.- 뷰와 복사를 구분하지 못해 원본 배열이 의도치 않게 바뀌는 경우.
- 정수 오버플로가 가능한
dtype으로 누적합을 하는 경우.
주의사항
- 부동소수점은 결합법칙이 성립하지 않습니다. 대규모 합산은
float64나math.fsum패턴을 검토하세요.
실무에서는 이렇게
- 메모리가 빠듯하면
out=인자로 버퍼를 재사용합니다. - Pandas와 섞을 때는
valuesvs 인덱스 정렬을 항상 확인합니다.
비교 및 대안
| 라이브러리 | 용도 |
|---|---|
| NumPy | 배열 연산, BLAS/LAPACK |
| Numba | 핫루프 JIT |
| JAX/PyTorch | 자미·GPU |
추가 리소스
내부 동작과 핵심 메커니즘
이 글의 주제는 「NumPy 기초 | Python 수치 계산 라이브러리 완벽 정리」입니다. 여기서는 앞선 설명을 구현·런타임 관점에서 한 번 더 압축합니다. 데이터 흐름과 실패 모드를 기준으로 생각하면, “입력이 어디서 검증되고, 핵심 연산이 어디서 일어나며, 부작용(I/O·네트워크·디스크)이 어디서 터지는가”가 한눈에 드러납니다.
처리 파이프라인(개념도)
flowchart TD A[입력·요청·이벤트] --> B[파싱·검증·디코딩] B --> C[핵심 연산·상태 전이] C --> D[부작용: I/O·네트워크·동시성] D --> E[결과·관측·저장]
알고리즘·프로토콜 관점에서의 체크포인트
- 불변 조건(Invariant): 각 단계가 만족해야 하는 조건(예: 버퍼 경계, 프로토콜 상태, 트랜잭션 격리)을 문장으로 적어 두면 디버깅 비용이 줄어듭니다.
- 결정성: 동일 입력에 동일 출력이 보장되는 순수한 층과, 시간·네트워크에 의해 달라질 수 있는 층을 분리해야 테스트와 장애 분석이 쉬워집니다.
- 경계 비용: 직렬화/역직렬화, 문자 인코딩, syscall 횟수, 락 경합처럼 “한 번의 호출이 아니라 누적되는 비용”을 의심 목록에 넣습니다.
프로덕션 운영 패턴
실서비스에서는 기능 구현과 함께 관측·배포·보안·비용이 동시에 요구됩니다. 아래는 팀에서 자주 쓰는 최소 체크리스트입니다.
| 영역 | 운영 관점에서의 질문 |
|---|---|
| 관측성 | 요청 단위 상관 ID, 에러율/지연 분위수, 주요 의존성 타임아웃이 보이는가 |
| 안전성 | 입력 검증·권한·비밀 관리가 코드 경로마다 일관적인가 |
| 신뢰성 | 재시도는 멱등한 연산에만 적용되는가, 서킷 브레이커·백오프가 있는가 |
| 성능 | 캐시 계층·배치 크기·풀링·백프레셔가 데이터 규모에 맞는가 |
| 배포 | 롤백 룬북, 카나리, 마이그레이션 호환성이 문서화되어 있는가 |
운영 환경에서는 “개발자 PC에서는 재현되지 않던 문제”가 시간·부하·데이터 크기 때문에 드러납니다. 따라서 스테이징의 데이터 양·네트워크 지연을 가능한 한 현실에 가깝게 맞추는 것이 중요합니다.
문제 해결(Troubleshooting)
| 증상 | 가능 원인 | 조치 |
|---|---|---|
| 간헐적 실패 | 레이스 컨디션, 타임아웃, 외부 의존성 불안정 | 최소 재현 스크립트 작성, 분산 트레이스·로그 상관관계 확인 |
| 성능 저하 | N+1 쿼리, 동기 I/O, 잠금 경합, 과도한 직렬화 | 프로파일러·APM으로 핫스팟 확인 후 한 가지씩 제거 |
| 메모리 증가 | 캐시 무제한, 클로저/이벤트 구독 누수, 대용량 객체의 불필요한 복사 | 상한·TTL·스냅샷 비교(힙 덤프/트레이스) |
| 빌드·배포만 실패 | 환경 변수·권한·플랫폼 차이 | CI 로그와 로컬 diff, 컨테이너/런타임 버전 핀(pin) |
권장 디버깅 순서: (1) 최소 재현 만들기 (2) 최근 변경 범위 좁히기 (3) 의존성·환경 변수 차이 확인 (4) 관측 데이터로 가설 검증 (5) 수정 후 회귀·부하 테스트.
정리
핵심 요약
- NumPy: 고성능 수치 계산
- ndarray: N차원 배열
- 벡터화: 반복문 없이 연산
- 브로드캐스팅: 크기 자동 맞춤
- 선형대수: 행렬 연산, 고유값
다음 단계
관련 글
자주 묻는 질문 (FAQ)
Q. 이 내용을 실무에서 언제 쓰나요?
A. NumPy 기초: Python 수치 계산 라이브러리 완벽 정리. NumPy 기본·배열 연산로 흐름을 잡고 원리·코드·실무 적용을 한글로 정리합니다. Python·NumPy·데이터분석 중심으로 설명합니다. Start … 실무에서는 위 본문의 예제와 선택 가이드를 참고해 적용하면 됩니다.
Q. 선행으로 읽으면 좋은 글은?
A. 각 글 하단의 이전 글 또는 관련 글 링크를 따라가면 순서대로 배울 수 있습니다. Python 시리즈 목차에서 전체 흐름을 확인할 수 있습니다.
Q. 더 깊이 공부하려면?
A. cppreference와 해당 라이브러리 공식 문서를 참고하세요. 글 말미의 참고 자료 링크도 활용하면 좋습니다.
같이 보면 좋은 글 (내부 링크)
이 주제와 연결되는 다른 글입니다.
- Matplotlib 기초 | Python 데이터 시각화 완벽 정리
- Python 데코레이터 | @decorator 완벽 정리
- Pandas 기초 | Python 데이터 분석 라이브러리 완벽 정리
이 글에서 다루는 키워드 (관련 검색어)
Python, NumPy, 데이터분석, 배열, 수치계산, 선형대수 등으로 검색하시면 이 글이 도움이 됩니다.