# 기획 기간 (19.06.10 ~ 19.06.19) 9일

# 기획안 발표 : 19.06.20

# 주제 : KAGGLE 주택 가격 예측

 

@ 표지, 목차

@ 주제 소개

이번 분석 프로젝트에서는 Kaggle이라는 예측 모델 및 분석 대회 플랫폼에서 진행되고 있는 대회 중

주택 가격 예측 이라는 대회에 참여하여 진행하려고 합니다.

기본적으로 주어지는 데이터는 Train데이터와 Test데이터로

Train데이를 가지고 예측 모델을 만들어

Test데이터의 종속변수를 얼마나 예측할 수 있는지를 경쟁하는 대회입니다.

이 대회는 고급 회귀 기법을 사용하여 예측 값을 도출해내야하고

그 예측력으로 얻어진 점수를 실시간 리더보드를 통해 순위를 확인 할 수 있습니다.

데이터 셋으로는 총 79개의 범주형 수치형 등이 섞여있는 독립 변수와

주택 가격인 SalePrice 종속 변수로 이루어져 있습니다.

본격적인 데이터 분석에 앞서

간단하게 수치형 독립변수들을 가지고 단순히 상관계수가 높은 독립변수만 뽑아

회귀분석을 진행해 보았습니다.

단순히 돌려본 회귀분석을 통해 알아낸 바로는

회귀 모델이 유의하고 결정계수가 높긴 하나

전처리도 안했을 뿐더러 수치형으로 되있으나

데이터 설명으론 범주형인 데이터들도 있었습니다.

위와 더불어 다른 여러가지 변수특성들을 고려해가면서

분석을 진행 할 예정이고

데이터 셋의 전처리를 먼저 진행 할 계획입니다.

+ Recent posts