* data sampling
이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링이라고 한다. 샘플링은 choice 명령을 사용한다.
np.random.choice(a, size=None, replace=True, p=None)
- a: 배열이면 원래의 데이터, 정수이면 arange(a)로 데이터 생성
- size: 정수, 샘플 숫자
- replace: boolean, True이면 한 번 선택한 데이터를 다시 선택 가능
- p: 배열, 각 데이터가 선택될 수 있는 확률
import numpy as np
np.random.choice(5, 3, replace=False) # array([2, 1, 3])
np.random.choice(5, 10) # array([0, 4, 1, 4, 1, 2, 2, 0, 1, 1])
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0]) # array([0, 3, 3, 2, 2, 3, 3, 2, 0, 3])
나는 training set과 validation set을 나눌 때, 원본 이미지 데이터셋에서 랜덤으로 training과 validation을 나누는데 사용했다
출처: https://datascienceschool.net/view-notebook/8bf41f87a08b4c44b307799577736a28/
'Programming Language > numpy' 카테고리의 다른 글
numpy 최소, 최대 조건 색인값: np.argmin(), np.argmax(), np.where() (0) | 2019.12.27 |
---|---|
numpy.maximum (0) | 2019.12.26 |
Python numpy - list comprehension, indexing, np.where, np.clip (0) | 2019.12.26 |