하루 하루

[그림으로 공부하는 머신러닝 알고리즘17 머신러닝 도감] 판다스_1일차 본문

IT/Artificial intelligence

[그림으로 공부하는 머신러닝 알고리즘17 머신러닝 도감] 판다스_1일차

san_deul 2020. 5. 14. 03:29

 

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=220680532

 

머신러닝 도감

복잡한 머신러닝 알고리즘을 그림과 함께 하나하나 살펴보는 입문서이다. 전문가가 아닌 사람도 머신러닝을 이해할 수 있도록 지도 학습과 비지도 학습에 해당하는 17가지 알고리즘을 설명한다

www.aladin.co.kr

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_wine

data = load_wine() # 변수에 데이터세트 저장 
df_X = pd.DataFrame(data.data, columns = data.feature_names ) 
# DataFrame : 특징을 엑셀의 시트처럼 2차원 구조로 변환해줌

df_X.head() # 데이터 세트 일부 출력 ( 데이터 확인 시 사용 )

df_Y = pd.DataFrame(data.target, columns =[ 'kind(target)' ])
df_Y.head()

# 특징과 종속 변수를 하나의 DataFrame 클래스 df로 합한다
#  axis = 1 -> 열을 합한다. 
df = pd.concat([df_X, df_Y] , axis = 1 )
df.head()

df.corr() # 상관관계의 명확한 정도를 나타내는 상관계수 출력

 

1에 가까울 수록 양의 상관관계
-1에 가가울 수록 음의 상관관계
0에 가깝다면 데이터 사이의 상관관계가 없는 것 

df.describe() # 특징들의 8가지 통계정보 출력 
# 데이터 수, 평균, 표준편차, 최솟값, 4분위수, 최댓값

from pandas.plotting import scatter_matrix

# _ 는 마지막으로 실행한 결과값을 저장하는 변수 
_ = scatter_matrix(df, figsize=(15,15))

# 행과 열에서 같은 특징이 겹치지 안을 때는 산점도, 
# 같은 특징이 겹칠 때는 히스토그램을 설정 

Comments