[Machine learning] 머신러닝 데이터 예시 / 예제(sklearn)

0

sklearn을 이용한 Machine learning 예시 불러오기

머신러닝을 학습 및 공부하기 위해서는 여러개의 데이터가 필요하다. 하지만 보통의 데이터는 유료이거나 정제되지 않아 사용하는데 불편함이 많다. 그래서 프로그래머들은 해당 문제를 해결하기 위해 미리 python에 데이터를 저장해 놓았다. 그중 한 가지 python – sklearn을 활용한 506개의 ‘boston 부동산 가격’ 데이터를 불러오겠다.

[Machine learning] 머신러닝 데이터 예시 / 예제(sklearn)
from sklearn.datasets import load_boston
import pandas as pd

print(boston_data.DESCR)

sklarn에 있는 boston datasets, 관련 내용을 보기 위해서 boston_data.DESCR을 작성하면 각각의 항목들이 출력됨.

[Machine learning] 머신러닝 데이터 예시 / 예제(sklearn)

위 내용을 보면 boston_data는 506행으로 이뤄졌으며 13개의 항목이 있다.

boston_data 구성요소

boston_data를 출력하면 구성요소에 대해 알 수 있다.

boston_data

구성요소는

  1. data
  2. target
  3. feature_name
  4. DESCR
[Machine learning] 머신러닝 데이터 예시 / 예제(sklearn)

1. data는 506행의 데이터를 의미 / 2. target은 목푯값(집값) / 3. feature_name은 13개의 항목을 의미함.

이를 pandas를 활용하여 표로 정리하면,

pd.DataFrame(boston_data.data, columns = boston_data.feature_names)

아래와 같이 표현됨.

[Machine learning] 머신러닝 데이터 예시 / 예제(sklearn)

또한, 목표 target인 부동산 가격을 표에 넣으면,

pd.DataFrame(boston_data.target, columns = ['MEDV'])
[Machine learning] 머신러닝 데이터 예시 / 예제(sklearn)

이제 각각의 자료를 이용하여 머신러닝 학습이 가능하다.

코드 요약

from sklearn.datasets import load_boston
import pandas as pd

boston_data = load_boston()

pd.DataFrame(boston_data.data, columns = boston_data.feature_names)
pd.DataFrame(boston_data.target, columns = ['MEDV'])

회신을 남겨주세요

귀하의 의견을 입력하십시오!
여기에 이름을 입력하십시오.