티스토리 뷰
안녕하세요. 은행 IT운영부 이지성과장입니다.
오늘은 머신러닝 모델에서 모델이 얼마나 좋은 성능을 내느냐 판단할 때 사용하는 기법에 대해서 알아보도록 하겠습니다. 먼저, 머신러닝 모델 생성 부터 평가까지 의 간략한 과정에 대해서 설명해 드리면,
1) 모델 생성에 사용될 데이터 확보 및 정제
2) 모델 기법 생성 선택 (knn, SVM, 로지스틱회귀 등등등...)
3) 모델 생성 (데이터 중 일부를 학습. 즉 , train data)
4) 모델 검증 및 평가 (데이터 중 일부를 테스트. 즉, test data)
순으로 진행하게 됩니다.
오늘 소개해 드릴 모델은 모델생성 이후 모델을 검증 및 평가 하기 위한 기법 중에 하나인 cross fold validation 입니다.
이 기법의 기본적인 컨셉은 아래와 같습니다.
데이터를 train data (학습데이터)와 test data(테스트 데이터)로 분리 할 때, k=4라면 4등분을 균등분할 합니다.
학습데이터와 테스트 데이터의 비중을 3:1 (train data를 4개중 3개, test data를 4개중 1)로 한다면 총 4가지의 경우가 생깁니다.
case1 : 1 (traindata) / 2,3,4 (testdata)
case2 : 2 (traindata) / 1,3,4 (testdata)
case3 : 3 (traindata) / 1,2,4 (testdata)
case4 : 4 (traindata) / 1,2,3 (testdata)
이렇게 총 경우의 수 4가지 케이스에 대해서 반복하여 가장 좋은 모델을 만들 수 있는 경우를 찾아내는 것입니다.
아래 그림을 보시면 이 기법의 컨셉이 이해가 되실 겁니다.
K값에 대해서 10을 대입한다면 10 cross fold validation이 되는 겁니다.
그러나 머신러닝에 사용될 데이터 량이 큰 경우 cross validation은 비효율을 가져올 수 있습니다.
이 기법은 머신러닝에 사용될 데이터의 모수 자체가 부족할 경우, 그 안에서 최고의 효율을 낼 때 사용되는 기법이라
할 수 있겠습니다. 즉, 데이터량이 충분하지 않을 때 최고의 모델을 찾는 기법인 것입니다.
흔히, 빅 데이터를 3V , 큰 볼륨 ( Volume ) , 빠른 속도, 실시간성 ( Velocity ), 다양성 (Variety) 라고 하는데요.
사실 최근 하둡과 같은 빅데이터 수집 인프라 ( hdfs ) 의 발달로 이미 모델에 사용될 충분한 데이터를 확보한 경우가 많습니다. 그래서 cross validation 기법은 최근 많이 사용되지 않는 것으로 알고 있습니다.
다음 포스팅에는 최적의 모델을 선택하는데 사용되는 "앙상블 기법"에 대해서 포스팅할 예정입니다.
날씨가 갑자기 더워질 것 같습니다. 건강해 유의하시고, 행복한 5월 가정의 달 되시길 바라겠습니다!
'data analysis' 카테고리의 다른 글
인공 신경망 (Artificial Neural Network) 알아보기 (0) | 2021.01.29 |
---|---|
앙상블(ensemble) 기법 및 배깅과 부스팅 알아보기 (0) | 2020.06.08 |
추천시스템 (recommendation system) 이란..? (0) | 2020.03.16 |
[classification] Decision Tree 의사결정나무 알아보기 (0) | 2020.03.11 |
What is EDA(Exploratory Data Analysis)? (0) | 2020.02.25 |
- Total
- Today
- Yesterday
- 정보관리기술사합격
- AWS
- r
- 기술사
- hackerrank
- s3
- 밀키트요리
- 12207
- gpt3.5
- 인조기프
- 정보관리
- 정보관리기술사독학
- 챗봇
- 머신러닝
- 131회정보관리기술사
- 로블록스
- 밀키트
- 추천도서
- 자기계발
- 콘도챗봇
- lambda
- pytorch
- FLASK
- ISO 12207
- IIS
- iso12207
- 정보관리기술사
- 추천시스템
- 기술사학원
- wfastcgi
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |