factorize1 파이썬 '판다스 데이터 분석' - 범주형(카테고리) 데이터 처리 -> 구간 분할 cut(), 더미 변수 get_dummies(Series):원핫인코딩, factorize(Series):라벨인코딩 연속 데이터를 일정한 구간 (bin) 으로 나눠서 분석하는 것이 효율적인경우가 있다. 가격, 비용, 효용 등 연속적인 값을 일정한 수준이나 정도를 나타내는 이산적인 값으로 나타내어 구간별 차이를 드러내는 것 구간 분할 - 각 구간을 범주형 이산 변수로 변환하는 과정을 구간 분할(binning)이라고 한다. np.histogram bins = 구간 갯수, 반환값 -> count = 각 구간에 속하는 값의 개수 bin_dividers = 경계값 리스트 import numpy as np # np.histogram 함수로 3개의 bin으로 구분할 경계값의 리스트 구하기 count, bin_dividers= np.histogram(df.horsepower, bins =3) print(count, bin_divid.. 2021. 7. 21. 이전 1 다음