What is EDA(Exploratory Data Analysis)?
위키피디아 링크 : https://en.wikipedia.org/wiki/Exploratory_data_analysis
탐색적 자료 분석은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 팍스플롯을 들 수 있다. 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다. (출처:위키피디아)
필요한 이유 (데이터 현상 이해, 잠재적 문제 및 패턴 발견, 가설 수정 또는 가설 생성)
첫째, 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다. 이를 통해, 본격적인 분석에 들어가기에 앞서 수집의사를 결정할 수 있다.
둘째, 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미쳐 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
과정
기본적인 출발점은 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세우는 것이다. 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야할지, 이를 위한 최적의 방법은 무엇인지가 포함되어야 한다.
3-1). 데이터를 전체적으로 살펴보기 : 데이터에 문제가 없는지 확인. head나 tail부분을 확인.
3-2). 데이터의 개별 속성값을 관찰 : 각 속성값이 예측한 범위와 분포를 갖는지 확인.
만약 그렇지 않다면, 이유가 무엇인지를 확인해 본다.
3-3). 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견한다.
전체적인 과정
1. 데이터 가져오기
데이터를 수집하는 과정입니다.
2. 데이터 모양 확인
데이터의 변수가 가지는 의미를 파악하는 과정입니다.
예를 들어 데이터 표의 행과 열이 가지는 의미를 파악하는 것입니다.
3. 데이터 타입 확인
데이터의 변수의 성질을 확인하는 과정입니다.
4. 데이터 기초 분석
정리된 데이터를 분석하는 과정입니다.
5. 데이터 클린징
데이터에서 이상한 값을 가지는 것을 처리하여 정확도를 향상시키는 과정입니다.
6. 데이터 시각화
데이터 분석을 통해 나온 결과를 시각화 하는 과정입니다.
참고할만한 책