파이썬 '판다스 데이터 분석' - 단위 변환, 자료형 변환 .astype('float'), unique(), nunique(), replace({ type: dict},inplace=True)
단위 변환 서로 다른 단위가 섞여 있거나 같은 대상을 다른 형식으로 표현하면 분석의 정확도는 현저히 낮아진다. 데이터 포맷을 일관성있게 표준화 하는 작업이 필요하다. 마일 야드 온스 -> 미터 평 그램 import pandas as pd df = pd.read_csv('data/auto-mpg.csv', header=None) df.columns=['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','name'] 마일 -> 킬로미터 mpg_to_kpl = 1.60934/3.78541 df['kpl'] = (df['mpg'] * mpg_to_kpl).round(2) df['kpl'].head()..
2021. 7. 19.
파이썬 '판다스 데이터 분석' - 함수 : sample(), .at[idx,'컬럼명'],pop('컬럼명') ,nlargest(idx, list), isin([])
그 밖의 df 함수 랜덤한 한 행의 데이터 보기 df.sample() mpgcylindersdisplacementhorsepowerweightaccelerationmodel yearoriginname 25525.14140.088.002720.015.4781 ford fairmont (man) 하나의 값에 접근 df.at[idx, '컬럼명'] df.at[397,'mpg'] 31.0 한 컬럼 전체가 반환되고 원 데이터프레임에서 drop 된다. Return item and drop from frame. Raise KeyError if not found. df.pop('mpg') 가장 큰 값 n 번째까지 리턴 df.nlargest(idx, list) >>> df.nlargest(3, ['a', 'c']) a b..
2021. 7. 14.
파이썬 '판다스 데이터 분석' - 데이터프레임 구조(shape, info(),describe(),value_counts()..), 통계함수(mean(), median(), min(), max(), std(), corr())
데이터셋의 내용과 구조를 개략적으로 살펴볼 수 있는 함수들과 통계함수들을 살펴볼 것이다. 데이터프레임 구조 import pandas as pd df = pd.read_csv('data/auto-mpg.csv', header=None) # 열 이름 지정 df.columns= ['mpg','cylinders','displacement','horsepower','weight', 'acceleration','model year','origin','name'] df.head() mpgcylindersdisplacementhorsepowerweightaccelerationmodel yearoriginname 018.08307.0130.03504.012.0701chevrolet chevelle malibu 115.0..
2021. 7. 8.