본문 바로가기

Programming Language/numpy

numpy random(난수) sampling - np.random.choice

* data sampling

이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링이라고 한다. 샘플링은 choice 명령을 사용한다.

 

np.random.choice(a, size=None, replace=True, p=None)

- a: 배열이면 원래의 데이터, 정수이면 arange(a)로 데이터 생성

- size: 정수, 샘플 숫자

- replace: boolean, True이면 한 번 선택한 데이터를 다시 선택 가능

- p: 배열, 각 데이터가 선택될 수 있는 확률

 

import numpy as np

np.random.choice(5, 3, replace=False)   # array([2, 1, 3])
np.random.choice(5, 10)   # array([0, 4, 1, 4, 1, 2, 2, 0, 1, 1])
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])   # array([0, 3, 3, 2, 2, 3, 3, 2, 0, 3])

 

나는 training set과 validation set을 나눌 때, 원본 이미지 데이터셋에서 랜덤으로 training과 validation을 나누는데 사용했다

 

 

출처: https://datascienceschool.net/view-notebook/8bf41f87a08b4c44b307799577736a28/

 

Data Science School

Data Science School is an open space!

datascienceschool.net