해시 태그
lADsP 완전 정복l 분류 분석 / 예측 분석 Dm4P8wOoHuQ
00:06 : 분류분석을 진행하기에 앞서서 분류분석과 예측분석에 대해서 한번 설명을 드릴게요.
00:12 : 이게 앞에서 말씀드린 목적에 따라서 보시면 예측이 있고요.
00:19 : 예측의 가장 많이 사용되는 게 분류 규칙이란 게 있다고 했습니다. 분류 규칙이 있고 그다음에 예측이란 것도 있어요.
00:27 : 이 두 가지가 다른 게 뭐냐. 분류규칙 같은 경우는 classification이에요.
00:32 : 그리고 예측은 prediction입니다. 자 똑같은 건데 지금 여기서 표현하는 거에 따라서 보시면
00:39 : 이거는 범주형으로 나타내는 거고요. 이거는 수치형 값으로 나타냅니다.
00:46 : 간략하게 말씀을 한번 드리면 여러분들이 앞서 수능 공부를 하실 때, 6월 모의 평가랑 9월 모의 평가가 있을 겁니다.
00:56 : 이런 모의평가 점수를 가지고 수능 등급을 예측할 거예요. 그러면 이거는 분류고요. 수능 점수를 예측할 겁니다.
01:06 : 이거는 예측이다. 라고 할 수 있습니다. 그래서 이 두 가지로 분류가 되는데 이번에는 분류분석에 대해서 학습을 할 거예요.
01:14 : 그래서 왼쪽에 한 번 설명을 한번 보시면 분류분석은 classification이라고 표현을 하고요.
01:21 : 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법을 분류분석이다. 라고 표현을 합니다.
01:29 : 그래서 클러스터링과 유사하다고는 표현을 해요. 근데 분류분석 같은 경우는 각 그룹이 정의가 되어 있습니다.
01:38 : 그래서 Supervised Learning에 해당하는 예측기법이다. 라고 적혀 있어요.
01:45 : 그래서 이런 분류 모델링 같은 경우는 약 4가지로 일단 한번 볼 수가 있을 거예요.
01:51 : 신용평가 모형. 그래서 A라는 사람이 신용평가 모형을 봤을 때, 우량한 사람이다. 불량한 사람이다. 라고, 예측할 수가 있을 거예요.
02:02 : 예측해서 이렇게 분류를 할 수가 있을 거예요. 그래서 이렇게 신용평가 모형은 어디서 많이 활용하느냐.
02:09 : 은행이나 아니면 카드사 이런 곳에서 이런 신용평가 모형을 주로 많이 활용을 할 거예요. 요즘에는 나이스라든지
02:16 : 이런 기업들에서 주로 많이 활용을 하는데 앞에서 말씀드린 것처럼 이런 우, 불량 같은 경우도 a라는 사람이 만약에
02:24 : 자가 소유 여부, 통장 잔고, 그다음에 빚이 얼만큼 있는지 이런 데이터가 있겠죠.
02:30 : 이런 데이터들이 막 있을 건데 이런 것들을 통해서 우, 불량을 따집니다.
02:35 : 그래서 이 사람은 우량이다. 이런 데이터들을 가지고 모형을 만들어서 새로운 레코드가 들어왔을 때 Z라는 사람이 들었을 때
02:44 : 이 값을 구하기 위해서 이런 값들이 가지고 있을 때, 이 값을 예측하는 이런 것들도 분류 모델링으로 할 수 있을 겁니다.
02:54 : 그리고 두 번째로 나오는 게 사기방지 모형이라는 게 있습니다.
02:58 : 이 사기 방지 모형의 경우에는 이 사람이 사기를 칠 거야, 안 칠 거야. 라는 것에 대한 생각이 있을 거예요.
03:09 : 그래서 특정 행동들이 있을 거예요. 갑자기 A라는 사람이 돈을 인출을 많이 하는 경우가 있어요.
03:16 : 안 하던 사람이 그래서 그렇게 하고 나면 입금이 갑자기 많이 되는 경우가 있어요.
03:21 : 그럴 때 이런 사기방지 모형을 만들어서 이 사람 갑자기 입금이 많이 되네. 뭔가 있을 거다. 라고 데이터를 통해서 그런 것들이 확인이 가능한 겁니다.
03:33 : 그래서 이런 것들도 분류 모델링으로 할 수가 있을 거고요.
03:35 : 그리고 이탈모형을 가지고 고객이 만약에 이 플랫폼에 대해서 구매를 계속 진행을 하다가 어느 기점부터 갑자기 거래가 중지되었다든지
03:48 : 그런 것들에 대한 데이터가 아마 많이 쌓여 있을 거예요. 그런 것들을 가지고 할 수 있는 게 바로 이탈모형이라는 것을 확인을 할 수 있을 겁니다.
03:58 : 그래서 이 고객이 이탈했는지 아니면 아직도 지금 우리 홈페이지에서 구매를 하고 있는지에 대해서 파악을 하실 수 있을 겁니다.
04:06 : 그래서 이런 이탈모형을 만들 수도 있고요. 아니면 앞에서 말씀드린 고객 세분화도 진행을 할 수가 있을 겁니다.
04:14 : 만약에 3사 통신사가 있을 거예요. 보통 3사 통신사에서 이런 분류를 어떻게 하느냐면 만약에 각 통신사의 가입 기간이 있을 거예요.
04:24 : 그리고 사용하는 요금제가 있을 거고, 월 납부 금액이 있을 거예요. 이런 것들을 통해서 이런 값들이 가입 기간이 얼마 이상이고, 그다음에 요금이 얼마나 많고
04:38 : 그다음에 월 납부액이 얼마이고 이런 것들을 통해서 vvip라든지, VIP, 골드 이런 것들에 대해서 고객 세분화를 할 수가 있을 거예요.
04:53 : 이거는 일단 3사 통신사라고 적었지만, 보통 인터넷 쇼핑몰 보시면 인터넷이나 앱 쇼핑을 보시면 구매 횟수라든지 구매 금액을 통해서
05:04 : 이 고객이 우리 앱이나 홈페이지에서 vip다. 골드 고객이다. 이런 것들을 판단을 할 수가 있을 겁니다.
05:11 : 그래서 분류 모델링 같은 경우는 한 분야에서 사용이 되는 게 아니라 엄청 많은 분야 데이터마이닝에서도 가장 많이 쓰는 분류이기 때문에
05:23 : 그렇기 때문에 다양한 분야에서 사용될 수 있는 게 분류 모델링이다라고 기억을 하시기 바랍니다.
05:30 : 그러면 이런 분류 모델링이 어떤 분류기법을 통해서 되는지 사용을 할 수 있는지 한번 확인을 해보도록 하겠습니다.
05:38 : 가장 먼저 나오는 방법이 바로 회귀분석이란 것이 있죠.
05:42 : 회귀분석 같은 경우는 여러분들이 알기로는 예측이지만, 그중에서 앞에 통계분석 시간 때 배운 로지스틱 회귀분석이라는 게 있어요.
05:51 : 로지스틱 회귀분석이라는 것은 간단하게 설명을 드리면. 이렇게 그래프가 있을 때 성공과 실패에 대해서 이런 식으로
06:00 : 데이터가 있다고 칠 때 이거에 대해서 회귀선을 긋지 못하기 때문에 시그모이드 함수를 통해서 이런 식으로 나타내는.
06:07 : 그리고 p의 확률의 y 값에 대해서 exponential로 나타내죠. 1+exponential에 대해서 그다음에 -알파+베타x 분에 1
06:25 : 이런 식으로 나타낼 수 있는 게 로지스틱 회귀분석일 겁니다. 이런 식으로 로지스틱 회귀분석을 통해서도 분류 모델링을 진행할 수 있고요.
06:33 : 두 번째로 나타나는 게 바로 의사결정나무입니다. 의사결정나무를 통해서도 분류분석을 진행을 할 수 있고
06:42 : 아니면 의사결정나무 안에 cart라는 알고리즘. C4.0, C5.0이라는 알고리즘을 통해서 분류분석을 수행을 하실 수 있을 겁니다.
06:51 : 그리고 베이지안 분류, 베이지 정리를 기반으로 한 베이지한 분류를 통해서 나이브 베이지안 분류 이렇게 표현도 하고요.
07:01 : 이걸 통해서 사전 확률이라든지 사후 확률을 따져서 분류를 하는 거에 대해서
07:07 : 확인을 할 수도 있고, 아니면 인공신경망. 그래서 인간의 뇌를 본뜬 그런 인공신경망
07:13 : 아니면 서포터 벡터 머신. 지지도 벡터 머신이라고 해서 좌표 평면에서 이 2가지를 나누는 최적의 선을 찾는
07:22 : 하이퍼 플랜을 찾는 방법인 서포트 벡터 머신이라는 방법 있습니다.
07:28 : 그리고 최근접 이웃법이라고 해서 k-nearest neighborhood라는 게 있어요. 만약에 좌표가 이런 식으로 나타나는데 점들이 이렇게 찍혀 있어요.
07:37 : 이게 a라는 그룹, b라는 그룹, b라는 그룹이라고 칩시다.
07:45 : 그래서 여기 이렇게 점이 딱 찍혔을 때, 이 점이 어떤 그룹에 해당하는가를 한번 확인을 해보는 거예요.
07:52 : 그래서 가장 가까이에 있는 친구를 따라서 얘도 b라는 그룹이 될 겁니다. 그래서 이렇게 하는 방법이 K 최근접 이웃법이라는 방법도 있습니다.
08:02 : 그리고 case based reasoning 이런 방법도 있다. 이런 방법을 통해서 분류분석을 수행을 할 수 있다. 라는 점 기억을 해주시기 바랍니다.
20:00 :
00:06 ~ 01:29
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 의사결정나무_1 fScKT1ghr70
00:06 : 의사결정란으로는 Decision Tree라고 표현을 하고요.
00:09 : 이것에 대한 개념을 한번 보고 밑에 그림을 한번 설명을 드릴 수 있도록 하겠습니다.
00:15 : 가장 먼저 의사결정나무는 분류함수를 의사결정 규칙으로 이루어진 나무 모양을 그리는 방법이다. 라고 적혀 있습니다.
00:25 : 그래서 나무구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이루어지는 시점과 성과를 한눈에 볼 수 있게 한다. 라고 적혀 있습니다.
00:38 : 그래서 의사결정나무는 주어진 입력값에 대해서 출력값을 예측하는 모형으로 분류나무랑 회귀나무모형이 있다. 라고 적혀 있습니다.
00:51 : 이게 밑에 그림을 보시면 조금 더 이해가 가실 거예요. 왼쪽 그림 먼저 보시면 x1이라는 값은 키이고, x2는 몸무게입니다.
01:03 : 키랑 몸무게를 가지고 남자인지 여자인지를 분류하는 문제입니다. 그래서 보시면 일반적으로 키가 x1이 158보다 작다고 하면, 예. 이면 어떤 값으로 갈 거고요.
01:20 : 아니요. 하면 아닌 값들 가지고 다시 또 분류를 해 볼 겁니다.
01:26 : 그러면 몸무게가 52보다 작냐. 했을 때 예. 라면 또 어떤 기준값으로 갈 거고요.
01:32 : 그다음에 또 아니면 또 다른 분류 기준값을 가지고 한 번 더 확인을 해 볼 겁니다.
01:38 : 그래서 x2라는 값이 61보다 크냐 했을 때 예. 이면, 또 어떤 값이 나오고요. 아니요. 하면 또 어떤 값으로 이렇게 분류가 될 거예요.
01:49 : 근데 예. 일 때는 분류가 되는 게 아니라 또 어떤 분류 기준값으로 통해서 분류가 진행이 됩니다.
01:55 : 그래서 마지막으로 x1이 172보다 크냐 하면 예. 를 통해서 어떤 분류 값 아니면 또 어떤 분류 값 이런 식으로
02:05 : 기준값에 대해서 특정 기준을 가지고 그 값을 그 값이 맞냐. 아니면 크냐, 작나를 통해서
02:13 : 그다음 층으로 내려가고, 그다음 층으로 내려가고, 그다음 층으로 내려감을 통해서
02:17 : 각각 분류되는 것을 의사결정나무다. 라고 할 수 있습니다.
02:23 : 여기선 이렇게 키랑 몸무게 이런 것들도 할 수가 있고, 여기서 보시면 썼던 게 또 그대로 쓰이고 있어요.
02:31 : 위에서 한번 썼다고 끝나는 게 아니고 x1의. x1을 가지고 위에서 한번 쓰고 또 한 번 쓸 수도 있고요.
02:38 : 한번 사용했던 분류 기준이 x2라는 것도 한 번 썼던 게 여기서도 사용이 될 수가 있다. 라는 점 기억을 하시기 바랍니다.
02:48 : 그래서 이런 규칙이 만들어졌을 때 이런 새로운 데이터가 들어오게 되면 이 규칙에 따라서 0인지. 1인지를 분류를 할 수가 있을 겁니다.
02:59 : 그리고 오른쪽 그림을 보시면 첫 해 임금 상승률이란 게 가장 처음으로 나와요. 그래서 가장 잘 분리하는 기준이 제일 위로 가요.
03:10 : 그래서 가장 잘 분리하는 기준 첫 번째를 제일 위에 두고, 첫 해 임금 상승률에 따라서 x값이 0과 2.5 사이일 때
03:20 : 그리고 2.5부터 99.9일 때, 값을 나눠서 회사에 대한 만족도 이런 것들이 나타낼 수가 있을 겁니다.
03:29 : 그래서 주당 업무 시간이 이 정도이거나 아니면 많을 때
03:34 : 그다음에 건강 계획 기호도에 따라서 회사에 대한 만족도가 배드, 굿. 이런 식으로 분리하는 그런 모형을 만들어 낼 수도 있어요.
03:43 : 그래서 앞에서 말씀드렸던 것처럼 여기서도 첫 해 임금 상승률이 처음에 나올 수는 있는데
03:50 : 밑에서도 이렇게 또 사용이 될 수 있다. 라는 점 반드시 기억을 하시기 바랍니다.
03:57 : 그래서 이 의사결정나무를 한번 보시면 계산 결과 자체가 의사결정나무에 직접 나타나게 됩니다.
04:04 : 이렇게 그래서 분석이 매우 간편하다. 라고 할 수 있어요.
04:09 : 그래서 이런 식으로 하는 분류나무가 있고요. 그다음에 이런 결괏값에 따라서 회귀나무모형.
04:20 : 수치값으로 결괏값이 나오는 그런 형태의 회귀나무모형도 있다. 라는 점 기억을 하시기 바랍니다.
04:27 : 그러면 이런 의사결정나무를 한번 직접 해보는 방향으로 한번 해 볼게요.
04:33 : 다음 그림을 같이 보면서 한번 저희가 보겠습니다.
04:35 : 씨름부, 농구부 각 100명의 키와 몸무게, 허벅지 두께 등의 설명 변수로 의사결정나무를 분석해서, 분류하면 아래와 같은 그림이나 나타난다고 합니다.
04:47 : 씨름부 100명, 그다음에 농구 100명이에요. 이렇게 이런 100명이 있을 때 각각에 대해서 개인 인적 정보도 있을 거예요.
04:59 : 개인정보, 나이, 그다음에 출생지, 이런 것들이 있고, 그다음에 신체 정보라는 게 있겠죠.
05:07 : 키, 몸무게, 허벅지 둘레, 여러 가지의 신체 정보에 대한 정보도 있을 겁니다.
05:15 : 데이터 분석을 수행을 하면. 그래서 이런 식으로 씨름부 100명과, 농구부 100명이 이런 사각형에서 사각 좌표에서 보면 이런 식으로 되어 있을 거예요.
05:30 : 이런 식으로 데이터가 분포가 되어 있을 거예요. 각자의 특징이 있기 때문에 한 곳에 몰리지 않고 이런 특징이 있을 거다.
05:38 : 이렇게 분포하고 있을 거다. 라고 생각이 될 겁니다.
05:44 : 이렇게 데이터가 분포를 하고 있는데 이런 변수들 중에서 이 씨름부랑 농구부를 가장 잘 분리하는 그 기준이 첫 번째로 되는 게 키라고 합니다.
05:56 : 그래서 개인정보와 신체 정보를 가지고 봤을 때, 키를 가지고 이렇게 분리를 했을 때, 선을 그어서 키가 180보다 큰 거에 대해서 데이터를 봤어요.
06:08 : 이게 가장 첫 번째로 분리했을 때, 가장 잘 분리되는 기준이 됩니다. 그래서 키가 180보다 크냐고 물어봤습니다.
06:18 : 그래서 아니다. 그다음에 맞다. 이런 식으로 결괏값을 도출하고 그거에 대해서 이제 또 데이터가 이렇게 분리가 될 겁니다.
06:28 : 그래서 첫 번째 기준이 키라는 것에 대해서 이런 식으로 확인이 가능할 겁니다.
06:33 : 그래서 키를 통해서 씨름부 농구부를 1차적으로 나누게 되었고, 그리고 이제 또 두 번째로 나눌 수 있는 기준이 있을 거예요.
06:43 : 여기서 또 봤을 때 여기 선을 통해서 몸무게를 한번 볼 거예요.
06:50 : 몸무게라는 변수를 그다음으로 분류하는데 아주 좋은 기준이 되었다. 라고 할 때, 몸무게가 85라는 숫자를 기준으로 한번 볼 겁니다.
07:01 : 85보다 크거나 작거나 이런 것들을 통해서 봤을 때, 85보다 몸무게가 작을 때는 농구부가 3명이고, 씨름부는 34명이다. 85보다 클 때.
07:15 : 그리고 몸무게가 85보다 작으면 그 사람들 중에서 60명 중에서 여기는 총 37명이고요. 그다음에 여기서는 23명일 거예요.
07:25 : 그래서 두 개로 분류가 되는 데, 몸무게가 85보다 작은 사람은 17명이 농구부고, 6명이 씨름부로 분류가 되었다. 라고 해서 여기서는 이제 끝이 난 겁니다.
07:35 : 그리고 이쪽 노드로 봤을 때는, 여기서는 보시면 이 기준으로 봤을 때 90이라는 값에 대해서 봤을 때도
07:48 : 90이라는 값을 대해서 봤을 때 작을 때와, 그다음에 90보다 클 때에 대해서 이런 식으로 분리를 하는데
07:53 : 여기서는 더 분리가 나아갈 일이 없기 때문에 여기서 분리를 마쳤습니다.
07:59 : 그리고 씨름부와 농구부에 대해서 68명과 8명으로 분류한 거에 대해서 더 추가로 분리할 수 있는 기준이 허벅지 둘레에 대해서 볼 수가 있을 거예요.
08:11 : 그래서 허벅지 둘레에 대해서 봤을 때, 뭐 이런 식으로 나눴을 때,
08:14 : 허벅지 둘레, 허벅지라고 이렇게 적어서 허벅지 둘레를 보시면 둘레가 90보다 작은지, 큰지에 대해서
08:24 : 이런 식으로 모형을 구분을 해서 분리를 할 수 있을 겁니다.
08:30 : 그래서 이런 식으로 좌표 평면이 이렇게 나타나는데 좌표평면의 데이터가 엄청 빼곡하게 들어가 있을 거예요.
08:38 : 빼곡하거나 아니면 좀 널널하게 들어가 있다든지 그래서 그 데이터가 잘 분리될 수 있는 선을 찾는 거예요. 계속.
08:45 : 그래서 계속 분리해 가서, 분리하고, 분리해서 똑같은 분류. 씨름부만 있든지, 농구부만 있는
08:54 : 그런 사각형을 만드는 거. 그거를 의사결정나무에서 사용을 한다. 라고 생각을 하시면 돼요.
09:00 : 그래서 이런 식으로 구조를 통해서 의사결정나무가 이루어지는구나. 라는 것을 반드시 기억을 하셔야 됩니다.
09:07 : 그래서 하나의 특징을 가질 때마다, 하나의 분류 기준을 가질 때마다 하나의 선을 그어가면서 그것들의 동일한 집단들이 포함되어 있는지를
09:16 : 계속 확인을 해 가면서 동일한 집단이 있을 때까지 한다든지, 아니면 적당한 기준에서 끊는다든지
09:22 : 그렇게까지 진행하는 게 의사결정나무다. 라는 점 기억을 하시기 바랍니다.
20:00 :
04:35 ~ 07:22
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 의사결정나무_3 ZBJ3SVitmiY
00:06 : 의사결정나무에 분석 단계는 크게 4가지 단계로 이루어집니다.
00:12 : 그림을 보시면 첫 번째 나무의 성장, 두 번째 가지치기, 세 번째 타당성 평가, 그다음에 네 번째 해석 및 예측 과정을 거쳐서
00:26 : 의사결정나무의 분석을 마무리할 수 있습니다.
00:29 : 그래서 성장, 가지치기, 타당성 평가, 해석 및 예측에 대해서 한번 알아보도록 하겠습니다.
00:37 : 가장 먼저 나오는 게 나무의 성장입니다. 나무의 성장 같은 경우는 분석의 목적과 자료구조에 따라서 적절한 분리규칙을 찾아서
00:52 : 나무를 성장시키는 과정에서 적절한 정지규칙을 만족하면 성장을 중단한다. 라고 적혀 있습니다.
01:01 : 가장 잘 분리한 규칙이 있을 거라고 했죠. 의사결정나무를 할 때, 이런 식으로 x와 동그라미가 있다고 합시다.
01:11 : 이렇게 겹쳐 있는데 이거를 가장 잘 분리하는 첫 번째 선을 찾아서 해당 특징을 가지고 가장 먼저 분리를 한다고 말씀을 드렸어요.
01:22 : 그래서 해당 규칙을 구한 다음에 나무가 이렇게 성장을 하게 됩니다. 그리고 또 다른 규칙을 찾고, 이런 식으로 계속 진행을 하는데
01:34 : 이 나무 규칙이 계속해서 생성이 되다 보면 불필요한 규칙까지 생성이 될 수 있어요. 그래서 어느 수준에서 멈춰야 된다. 라고 하는 정지규칙도 정해 주어야 됩니다.
01:47 : 그래서 정지규칙이 만약에 세 번째 나무까지만 하겠다. 첫 번째, 두 번째, 세 번째 라인까지만 하겠다.
01:55 : 이것까지만 하겠다고 지정을 해주고 이렇게 생성되는 나무를 확인을 먼저 할 거예요.
02:01 : 이렇게 나무가 성장을 마치게 된다면 가지치기라는 과정을 거칠 겁니다.
02:07 : 가지치기 같은 경우는 오차를 크게 할 위험이 높거나, 부적절한 추론규칙을 가지고 있는 경우. 가지 또는 불필요한 가지를 제거하는 단계예요.
02:23 : 이렇게 나무가 생성, 성장을 했는데요. 이 중에서 불필요한 규칙이 있을 수도 있어요.
02:30 : 이게 정확도라든지 이런 것들이 떨어진다든지, 아니면 전문가가 판단했을 때, 필요하지 않은 가지라고 판단을 할 수 있습니다.
02:38 : 그런 가지는 끊어서 사용하지 않겠다. 하는 이런 것들을 통해서 가지치기를 진행을 합니다.
02:46 : 그러고 나서 완성된 의사결정나무 모형을 이제 평가를 하는 거예요.
02:53 : 앞에서 1절에서 데이터마이닝 개요에서 배웠던 이익도표라든지 아니면 위험도표 혹은 테스트 데이터에 의한 교차 타당성을 이용해서
03:06 : 의사결정나무의 성능을 한번 평가를 합니다.
03:10 : 이렇게 평가를 마치게 되면 이 구축된 의사결정나무를 해석하고, 예측 모형을 선정한 후에, 예측에 적용한다.
03:20 : 그래서 총 4가지의 단계를 거쳐서 의사결정나무에 분석을 할 수 있다. 라는 점 기억을 하시기 바랍니다.
03:31 : 그러면 이 의사결정나무에 대해서 가장 먼저 진행되는 성장에 대해서 간단하게 한번 말씀을 드리면 이렇게 의사결정나무는 네모 박스에
03:45 : 동그라미와 빈 동그라미가 이렇게 있을 거예요. 이거를 가장 잘 분리하는 분리규칙을 먼저 찾는다고 말씀드렸어요.
03:54 : 찾고 또 찾고, 또 찾고 이런 식으로 하는데 이거를 똑같은 공간에서 반복적으로 진행이 되고 있습니다. 그래서 반복적 분할, 재귀적 분할이라고 합니다.
04:06 : 그래서 여기 목적을 한번 보시면 모든 공간을 직사각형으로 나누어서 각 직사각형이 가능한 순수하게, 혹은 동질적이 되도록 하는 것이 목적이에요.
04:21 : 그래서 동그라미 점만 있으면 동그라미 점만 있어야 되고, 빈 점만 있어야 되면 빈 점만 있는 그런 사각형을 찾는 그런 분할을
04:30 : 할 수 있는 기준을 찾는 게 의사결정나무에서 핵심이라고 할 수 있습니다.
04:35 : 그래서 여기서 말하는 순수의 의미는 최종 직사각형에 포함된 변수가 모두 동일한 집단에 속하는 것을 순수다. 라고 표현을 할 수 있습니다.
04:49 : 이런 식의 기준을 가지고 분할을 진행을 하고, 그다음에 분리규칙을 정한 다음에, 그다음에 거기에 맞는 나무를 계속 성장을 해 나갈 것입니다.
04:59 : 그래서 이런 분리 기준을 잡을 수 있는데, 이거는 두 가지로 분리해서 잡아 볼 수가 있을 거예요.
05:06 : 첫 번째는 이산형 목표변수, 두 번째는 연속형 목표변수다. 라고 설명이 되어 있는데
05:12 : 이상형 목표변수는 그냥 분류나무라고 생각을 하시면 돼요. 0이다, 1이다, 2다, 남자다, 여자다, 씨름부다, 농구부다. 이런 식으로 이산형 목표 같은 경우는
05:27 : 범주형 변수에 대해서 분류를 할 때 사용을 하거나 연속형 목표변수 같은 경우는 주로 회귀나무에서 사용하는 거죠.
05:36 : 예측값을 정확하게 구하기 위해서 사용하는 것을 목표변수에 따라서 볼 수 있어요. 그래서 이런 것들을 기준으로 하는 기준값이 각각 존재합니다.
05:46 : 그래서 이산형 목표변수 같은 경우는 카이제곱 통계량의 p 값, 지니 지수, 엔트로피 지수로 이런 것들을 확인을 할 수가 있고,
05:57 : 연속형 목표변수의 경우에는 분산분석에서의 F 통계량, 그다음에 분산의 감소량 이런 걸로 확인을 할 수가 있다. 라고 적혀 있어요.
06:07 : 시험에서 이상형 목표의 변수에 대해서 분리 기준에 대한 기준값을 물어보거나 목표형 변수에 대해서 기준값에 대해서 이런 것들을 물어보는
06:16 : 문제가 나올 수 있으니, 이거는 반드시 기억을 하시고 넘어가셔야 됩니다.
06:23 : p 값 같은 경우는 분리 기준이 어떻게 되냐. 지니 지수도 어떻게 되냐. 이걸 한번 확인해 보면 카이제곱 통계량의 p 값은.
06:32 : p 값이 가장 작은 예측 변수에요.
06:37 : 그리고 그때 최적 분리에 의해서 자식 마디가 생성이 될 거예요. 그래서 만약에 씨름부를 나누는데 키가 190일 때 최적이다.
06:49 : 하면 이게 최적의 분리 기준이 되는 겁니다. 이때 p 값을 구해서 확인을 해보는 거예요.
06:54 : 그리고 지니 지수 같은 경우는 지니 지수를 감소시켜 주는 예측 변수에요.
07:01 : 그리고 그때의 최적분리에 의해서 자식 마디가 선택이 되고 형성이 될 거예요.
07:07 : 엔트로프 지수도 마찬가지로 엔드로퀴지수는 가장 작은 예측변수, 그리고 이때의 최적 분리에 의해 자식 마디를 형성을 한다. 라는 점 기억을 하시기 바랍니다.
07:20 : 그래서 이산형 목표변수 같은 경우는 기준값이 다 낮을 때, 아니면 많이 감소시켜 줄 때. 그때의 최적 분리를 기준으로 삼고
07:29 : 자식 마디를 형성한다. 라고 기억을 하시기 바랍니다.
07:35 : 연속형 목표변수의 경우에는 분산분석의 F 통계량 값은 p 값이 가장 작은 예측 변수와 그때의 최적 분리에 의해서 자식 마디가 생성이 되고요.
07:47 : 분산 감소량의 경우에도 분산 감소량이 최대화되는 기준. 분산 감소량이 최대화된다. 라고 말을 해요.
07:58 : 그래서 분산이 적으면 적을수록 같이 모여 있다고 판단을 할 수가 있을 거예요.
08:01 : 그래서 감소량이 가장 많으면 그거에 대해서 기준을 최적분리로 하고 자식 마디를 형성한다.
08:10 : 그래서 이런 자세한 내용은 암기만 하시고 이런 것들이 있다. 라는 것도 반드시 기억을 하시기 바랍니다.
20:00 :
00:29 ~ 01:29
1
2
3
검수 상태 : 불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 : 추가