남은 문제 : 36

문제 1339

아래는 kyphosis라는 자료를 이용하여 의사결정나무 분석을 수행한 결과이다. 결과에 대한 해석으로 부적절한 것은?

보기

1.뿌리마디에서 아래로 내려갈수록 각 마디에서의 불순도는 점차 증가한다.
2.뿌리마디의 자료는 Start 변수를 이용하여 분리했을 때 present와 absent를 가장 잘 분리시킬 수 있다.
3.위 결과의 단계에서 멈추지 않고 추가로 가지를 생성한다면, 새로운 자료에 대한 예측력은 떨어질 수도 있다.
4.이 자료에서 Start 변수의 값이 14.5이상인 관찰치는 Kyphosis 변수의 값이 모두 absent 였을 것이다.

정답

해시
태그

lADsP 완전 정복l 분류 분석 / 예측 분석 Dm4P8wOoHuQ	00:06 : 분류분석을 진행하기에 앞서서 분류분석과 예측분석에 대해서 한번 설명을 드릴게요. 00:12 : 이게 앞에서 말씀드린 목적에 따라서 보시면 예측이 있고요. 00:19 : 예측의 가장 많이 사용되는 게 분류 규칙이란 게 있다고 했습니다. 분류 규칙이 있고 그다음에 예측이란 것도 있어요. 00:27 : 이 두 가지가 다른 게 뭐냐. 분류규칙 같은 경우는 classification이에요. 00:32 : 그리고 예측은 prediction입니다. 자 똑같은 건데 지금 여기서 표현하는 거에 따라서 보시면 00:39 : 이거는 범주형으로 나타내는 거고요. 이거는 수치형 값으로 나타냅니다. 00:46 : 간략하게 말씀을 한번 드리면 여러분들이 앞서 수능 공부를 하실 때, 6월 모의 평가랑 9월 모의 평가가 있을 겁니다. 00:56 : 이런 모의평가 점수를 가지고 수능 등급을 예측할 거예요. 그러면 이거는 분류고요. 수능 점수를 예측할 겁니다. 01:06 : 이거는 예측이다. 라고 할 수 있습니다. 그래서 이 두 가지로 분류가 되는데 이번에는 분류분석에 대해서 학습을 할 거예요. 01:14 : 그래서 왼쪽에 한 번 설명을 한번 보시면 분류분석은 classification이라고 표현을 하고요. 01:21 : 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용되는 기법을 분류분석이다. 라고 표현을 합니다. 01:29 : 그래서 클러스터링과 유사하다고는 표현을 해요. 근데 분류분석 같은 경우는 각 그룹이 정의가 되어 있습니다. 01:38 : 그래서 Supervised Learning에 해당하는 예측기법이다. 라고 적혀 있어요. 01:45 : 그래서 이런 분류 모델링 같은 경우는 약 4가지로 일단 한번 볼 수가 있을 거예요. 01:51 : 신용평가 모형. 그래서 A라는 사람이 신용평가 모형을 봤을 때, 우량한 사람이다. 불량한 사람이다. 라고, 예측할 수가 있을 거예요. 02:02 : 예측해서 이렇게 분류를 할 수가 있을 거예요. 그래서 이렇게 신용평가 모형은 어디서 많이 활용하느냐. 02:09 : 은행이나 아니면 카드사 이런 곳에서 이런 신용평가 모형을 주로 많이 활용을 할 거예요. 요즘에는 나이스라든지 02:16 : 이런 기업들에서 주로 많이 활용을 하는데 앞에서 말씀드린 것처럼 이런 우, 불량 같은 경우도 a라는 사람이 만약에 02:24 : 자가 소유 여부, 통장 잔고, 그다음에 빚이 얼만큼 있는지 이런 데이터가 있겠죠. 02:30 : 이런 데이터들이 막 있을 건데 이런 것들을 통해서 우, 불량을 따집니다. 02:35 : 그래서 이 사람은 우량이다. 이런 데이터들을 가지고 모형을 만들어서 새로운 레코드가 들어왔을 때 Z라는 사람이 들었을 때 02:44 : 이 값을 구하기 위해서 이런 값들이 가지고 있을 때, 이 값을 예측하는 이런 것들도 분류 모델링으로 할 수 있을 겁니다. 02:54 : 그리고 두 번째로 나오는 게 사기방지 모형이라는 게 있습니다. 02:58 : 이 사기 방지 모형의 경우에는 이 사람이 사기를 칠 거야, 안 칠 거야. 라는 것에 대한 생각이 있을 거예요. 03:09 : 그래서 특정 행동들이 있을 거예요. 갑자기 A라는 사람이 돈을 인출을 많이 하는 경우가 있어요. 03:16 : 안 하던 사람이 그래서 그렇게 하고 나면 입금이 갑자기 많이 되는 경우가 있어요. 03:21 : 그럴 때 이런 사기방지 모형을 만들어서 이 사람 갑자기 입금이 많이 되네. 뭔가 있을 거다. 라고 데이터를 통해서 그런 것들이 확인이 가능한 겁니다. 03:33 : 그래서 이런 것들도 분류 모델링으로 할 수가 있을 거고요. 03:35 : 그리고 이탈모형을 가지고 고객이 만약에 이 플랫폼에 대해서 구매를 계속 진행을 하다가 어느 기점부터 갑자기 거래가 중지되었다든지 03:48 : 그런 것들에 대한 데이터가 아마 많이 쌓여 있을 거예요. 그런 것들을 가지고 할 수 있는 게 바로 이탈모형이라는 것을 확인을 할 수 있을 겁니다. 03:58 : 그래서 이 고객이 이탈했는지 아니면 아직도 지금 우리 홈페이지에서 구매를 하고 있는지에 대해서 파악을 하실 수 있을 겁니다. 04:06 : 그래서 이런 이탈모형을 만들 수도 있고요. 아니면 앞에서 말씀드린 고객 세분화도 진행을 할 수가 있을 겁니다. 04:14 : 만약에 3사 통신사가 있을 거예요. 보통 3사 통신사에서 이런 분류를 어떻게 하느냐면 만약에 각 통신사의 가입 기간이 있을 거예요. 04:24 : 그리고 사용하는 요금제가 있을 거고, 월 납부 금액이 있을 거예요. 이런 것들을 통해서 이런 값들이 가입 기간이 얼마 이상이고, 그다음에 요금이 얼마나 많고 04:38 : 그다음에 월 납부액이 얼마이고 이런 것들을 통해서 vvip라든지, VIP, 골드 이런 것들에 대해서 고객 세분화를 할 수가 있을 거예요. 04:53 : 이거는 일단 3사 통신사라고 적었지만, 보통 인터넷 쇼핑몰 보시면 인터넷이나 앱 쇼핑을 보시면 구매 횟수라든지 구매 금액을 통해서 05:04 : 이 고객이 우리 앱이나 홈페이지에서 vip다. 골드 고객이다. 이런 것들을 판단을 할 수가 있을 겁니다. 05:11 : 그래서 분류 모델링 같은 경우는 한 분야에서 사용이 되는 게 아니라 엄청 많은 분야 데이터마이닝에서도 가장 많이 쓰는 분류이기 때문에 05:23 : 그렇기 때문에 다양한 분야에서 사용될 수 있는 게 분류 모델링이다라고 기억을 하시기 바랍니다. 05:30 : 그러면 이런 분류 모델링이 어떤 분류기법을 통해서 되는지 사용을 할 수 있는지 한번 확인을 해보도록 하겠습니다. 05:38 : 가장 먼저 나오는 방법이 바로 회귀분석이란 것이 있죠. 05:42 : 회귀분석 같은 경우는 여러분들이 알기로는 예측이지만, 그중에서 앞에 통계분석 시간 때 배운 로지스틱 회귀분석이라는 게 있어요. 05:51 : 로지스틱 회귀분석이라는 것은 간단하게 설명을 드리면. 이렇게 그래프가 있을 때 성공과 실패에 대해서 이런 식으로 06:00 : 데이터가 있다고 칠 때 이거에 대해서 회귀선을 긋지 못하기 때문에 시그모이드 함수를 통해서 이런 식으로 나타내는. 06:07 : 그리고 p의 확률의 y 값에 대해서 exponential로 나타내죠. 1+exponential에 대해서 그다음에 -알파+베타x 분에 1 06:25 : 이런 식으로 나타낼 수 있는 게 로지스틱 회귀분석일 겁니다. 이런 식으로 로지스틱 회귀분석을 통해서도 분류 모델링을 진행할 수 있고요. 06:33 : 두 번째로 나타나는 게 바로 의사결정나무입니다. 의사결정나무를 통해서도 분류분석을 진행을 할 수 있고 06:42 : 아니면 의사결정나무 안에 cart라는 알고리즘. C4.0, C5.0이라는 알고리즘을 통해서 분류분석을 수행을 하실 수 있을 겁니다. 06:51 : 그리고 베이지안 분류, 베이지 정리를 기반으로 한 베이지한 분류를 통해서 나이브 베이지안 분류 이렇게 표현도 하고요. 07:01 : 이걸 통해서 사전 확률이라든지 사후 확률을 따져서 분류를 하는 거에 대해서 07:07 : 확인을 할 수도 있고, 아니면 인공신경망. 그래서 인간의 뇌를 본뜬 그런 인공신경망 07:13 : 아니면 서포터 벡터 머신. 지지도 벡터 머신이라고 해서 좌표 평면에서 이 2가지를 나누는 최적의 선을 찾는 07:22 : 하이퍼 플랜을 찾는 방법인 서포트 벡터 머신이라는 방법 있습니다. 07:28 : 그리고 최근접 이웃법이라고 해서 k-nearest neighborhood라는 게 있어요. 만약에 좌표가 이런 식으로 나타나는데 점들이 이렇게 찍혀 있어요. 07:37 : 이게 a라는 그룹, b라는 그룹, b라는 그룹이라고 칩시다. 07:45 : 그래서 여기 이렇게 점이 딱 찍혔을 때, 이 점이 어떤 그룹에 해당하는가를 한번 확인을 해보는 거예요. 07:52 : 그래서 가장 가까이에 있는 친구를 따라서 얘도 b라는 그룹이 될 겁니다. 그래서 이렇게 하는 방법이 K 최근접 이웃법이라는 방법도 있습니다. 08:02 : 그리고 case based reasoning 이런 방법도 있다. 이런 방법을 통해서 분류분석을 수행을 할 수 있다. 라는 점 기억을 해주시기 바랍니다. 20:00 :	00:06 ~ 01:29		검수 상태 : 불통
lADsP 완전 정복l 의사결정나무_1 fScKT1ghr70	00:06 : 의사결정란으로는 Decision Tree라고 표현을 하고요. 00:09 : 이것에 대한 개념을 한번 보고 밑에 그림을 한번 설명을 드릴 수 있도록 하겠습니다. 00:15 : 가장 먼저 의사결정나무는 분류함수를 의사결정 규칙으로 이루어진 나무 모양을 그리는 방법이다. 라고 적혀 있습니다. 00:25 : 그래서 나무구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이루어지는 시점과 성과를 한눈에 볼 수 있게 한다. 라고 적혀 있습니다. 00:38 : 그래서 의사결정나무는 주어진 입력값에 대해서 출력값을 예측하는 모형으로 분류나무랑 회귀나무모형이 있다. 라고 적혀 있습니다. 00:51 : 이게 밑에 그림을 보시면 조금 더 이해가 가실 거예요. 왼쪽 그림 먼저 보시면 x1이라는 값은 키이고, x2는 몸무게입니다. 01:03 : 키랑 몸무게를 가지고 남자인지 여자인지를 분류하는 문제입니다. 그래서 보시면 일반적으로 키가 x1이 158보다 작다고 하면, 예. 이면 어떤 값으로 갈 거고요. 01:20 : 아니요. 하면 아닌 값들 가지고 다시 또 분류를 해 볼 겁니다. 01:26 : 그러면 몸무게가 52보다 작냐. 했을 때 예. 라면 또 어떤 기준값으로 갈 거고요. 01:32 : 그다음에 또 아니면 또 다른 분류 기준값을 가지고 한 번 더 확인을 해 볼 겁니다. 01:38 : 그래서 x2라는 값이 61보다 크냐 했을 때 예. 이면, 또 어떤 값이 나오고요. 아니요. 하면 또 어떤 값으로 이렇게 분류가 될 거예요. 01:49 : 근데 예. 일 때는 분류가 되는 게 아니라 또 어떤 분류 기준값으로 통해서 분류가 진행이 됩니다. 01:55 : 그래서 마지막으로 x1이 172보다 크냐 하면 예. 를 통해서 어떤 분류 값 아니면 또 어떤 분류 값 이런 식으로 02:05 : 기준값에 대해서 특정 기준을 가지고 그 값을 그 값이 맞냐. 아니면 크냐, 작나를 통해서 02:13 : 그다음 층으로 내려가고, 그다음 층으로 내려가고, 그다음 층으로 내려감을 통해서 02:17 : 각각 분류되는 것을 의사결정나무다. 라고 할 수 있습니다. 02:23 : 여기선 이렇게 키랑 몸무게 이런 것들도 할 수가 있고, 여기서 보시면 썼던 게 또 그대로 쓰이고 있어요. 02:31 : 위에서 한번 썼다고 끝나는 게 아니고 x1의. x1을 가지고 위에서 한번 쓰고 또 한 번 쓸 수도 있고요. 02:38 : 한번 사용했던 분류 기준이 x2라는 것도 한 번 썼던 게 여기서도 사용이 될 수가 있다. 라는 점 기억을 하시기 바랍니다. 02:48 : 그래서 이런 규칙이 만들어졌을 때 이런 새로운 데이터가 들어오게 되면 이 규칙에 따라서 0인지. 1인지를 분류를 할 수가 있을 겁니다. 02:59 : 그리고 오른쪽 그림을 보시면 첫 해 임금 상승률이란 게 가장 처음으로 나와요. 그래서 가장 잘 분리하는 기준이 제일 위로 가요. 03:10 : 그래서 가장 잘 분리하는 기준 첫 번째를 제일 위에 두고, 첫 해 임금 상승률에 따라서 x값이 0과 2.5 사이일 때 03:20 : 그리고 2.5부터 99.9일 때, 값을 나눠서 회사에 대한 만족도 이런 것들이 나타낼 수가 있을 겁니다. 03:29 : 그래서 주당 업무 시간이 이 정도이거나 아니면 많을 때 03:34 : 그다음에 건강 계획 기호도에 따라서 회사에 대한 만족도가 배드, 굿. 이런 식으로 분리하는 그런 모형을 만들어 낼 수도 있어요. 03:43 : 그래서 앞에서 말씀드렸던 것처럼 여기서도 첫 해 임금 상승률이 처음에 나올 수는 있는데 03:50 : 밑에서도 이렇게 또 사용이 될 수 있다. 라는 점 반드시 기억을 하시기 바랍니다. 03:57 : 그래서 이 의사결정나무를 한번 보시면 계산 결과 자체가 의사결정나무에 직접 나타나게 됩니다. 04:04 : 이렇게 그래서 분석이 매우 간편하다. 라고 할 수 있어요. 04:09 : 그래서 이런 식으로 하는 분류나무가 있고요. 그다음에 이런 결괏값에 따라서 회귀나무모형. 04:20 : 수치값으로 결괏값이 나오는 그런 형태의 회귀나무모형도 있다. 라는 점 기억을 하시기 바랍니다. 04:27 : 그러면 이런 의사결정나무를 한번 직접 해보는 방향으로 한번 해 볼게요. 04:33 : 다음 그림을 같이 보면서 한번 저희가 보겠습니다. 04:35 : 씨름부, 농구부 각 100명의 키와 몸무게, 허벅지 두께 등의 설명 변수로 의사결정나무를 분석해서, 분류하면 아래와 같은 그림이나 나타난다고 합니다. 04:47 : 씨름부 100명, 그다음에 농구 100명이에요. 이렇게 이런 100명이 있을 때 각각에 대해서 개인 인적 정보도 있을 거예요. 04:59 : 개인정보, 나이, 그다음에 출생지, 이런 것들이 있고, 그다음에 신체 정보라는 게 있겠죠. 05:07 : 키, 몸무게, 허벅지 둘레, 여러 가지의 신체 정보에 대한 정보도 있을 겁니다. 05:15 : 데이터 분석을 수행을 하면. 그래서 이런 식으로 씨름부 100명과, 농구부 100명이 이런 사각형에서 사각 좌표에서 보면 이런 식으로 되어 있을 거예요. 05:30 : 이런 식으로 데이터가 분포가 되어 있을 거예요. 각자의 특징이 있기 때문에 한 곳에 몰리지 않고 이런 특징이 있을 거다. 05:38 : 이렇게 분포하고 있을 거다. 라고 생각이 될 겁니다. 05:44 : 이렇게 데이터가 분포를 하고 있는데 이런 변수들 중에서 이 씨름부랑 농구부를 가장 잘 분리하는 그 기준이 첫 번째로 되는 게 키라고 합니다. 05:56 : 그래서 개인정보와 신체 정보를 가지고 봤을 때, 키를 가지고 이렇게 분리를 했을 때, 선을 그어서 키가 180보다 큰 거에 대해서 데이터를 봤어요. 06:08 : 이게 가장 첫 번째로 분리했을 때, 가장 잘 분리되는 기준이 됩니다. 그래서 키가 180보다 크냐고 물어봤습니다. 06:18 : 그래서 아니다. 그다음에 맞다. 이런 식으로 결괏값을 도출하고 그거에 대해서 이제 또 데이터가 이렇게 분리가 될 겁니다. 06:28 : 그래서 첫 번째 기준이 키라는 것에 대해서 이런 식으로 확인이 가능할 겁니다. 06:33 : 그래서 키를 통해서 씨름부 농구부를 1차적으로 나누게 되었고, 그리고 이제 또 두 번째로 나눌 수 있는 기준이 있을 거예요. 06:43 : 여기서 또 봤을 때 여기 선을 통해서 몸무게를 한번 볼 거예요. 06:50 : 몸무게라는 변수를 그다음으로 분류하는데 아주 좋은 기준이 되었다. 라고 할 때, 몸무게가 85라는 숫자를 기준으로 한번 볼 겁니다. 07:01 : 85보다 크거나 작거나 이런 것들을 통해서 봤을 때, 85보다 몸무게가 작을 때는 농구부가 3명이고, 씨름부는 34명이다. 85보다 클 때. 07:15 : 그리고 몸무게가 85보다 작으면 그 사람들 중에서 60명 중에서 여기는 총 37명이고요. 그다음에 여기서는 23명일 거예요. 07:25 : 그래서 두 개로 분류가 되는 데, 몸무게가 85보다 작은 사람은 17명이 농구부고, 6명이 씨름부로 분류가 되었다. 라고 해서 여기서는 이제 끝이 난 겁니다. 07:35 : 그리고 이쪽 노드로 봤을 때는, 여기서는 보시면 이 기준으로 봤을 때 90이라는 값에 대해서 봤을 때도 07:48 : 90이라는 값을 대해서 봤을 때 작을 때와, 그다음에 90보다 클 때에 대해서 이런 식으로 분리를 하는데 07:53 : 여기서는 더 분리가 나아갈 일이 없기 때문에 여기서 분리를 마쳤습니다. 07:59 : 그리고 씨름부와 농구부에 대해서 68명과 8명으로 분류한 거에 대해서 더 추가로 분리할 수 있는 기준이 허벅지 둘레에 대해서 볼 수가 있을 거예요. 08:11 : 그래서 허벅지 둘레에 대해서 봤을 때, 뭐 이런 식으로 나눴을 때, 08:14 : 허벅지 둘레, 허벅지라고 이렇게 적어서 허벅지 둘레를 보시면 둘레가 90보다 작은지, 큰지에 대해서 08:24 : 이런 식으로 모형을 구분을 해서 분리를 할 수 있을 겁니다. 08:30 : 그래서 이런 식으로 좌표 평면이 이렇게 나타나는데 좌표평면의 데이터가 엄청 빼곡하게 들어가 있을 거예요. 08:38 : 빼곡하거나 아니면 좀 널널하게 들어가 있다든지 그래서 그 데이터가 잘 분리될 수 있는 선을 찾는 거예요. 계속. 08:45 : 그래서 계속 분리해 가서, 분리하고, 분리해서 똑같은 분류. 씨름부만 있든지, 농구부만 있는 08:54 : 그런 사각형을 만드는 거. 그거를 의사결정나무에서 사용을 한다. 라고 생각을 하시면 돼요. 09:00 : 그래서 이런 식으로 구조를 통해서 의사결정나무가 이루어지는구나. 라는 것을 반드시 기억을 하셔야 됩니다. 09:07 : 그래서 하나의 특징을 가질 때마다, 하나의 분류 기준을 가질 때마다 하나의 선을 그어가면서 그것들의 동일한 집단들이 포함되어 있는지를 09:16 : 계속 확인을 해 가면서 동일한 집단이 있을 때까지 한다든지, 아니면 적당한 기준에서 끊는다든지 09:22 : 그렇게까지 진행하는 게 의사결정나무다. 라는 점 기억을 하시기 바랍니다. 20:00 :	04:35 ~ 07:22		검수 상태 : 불통
lADsP 완전 정복l 의사결정나무_3 ZBJ3SVitmiY	00:06 : 의사결정나무에 분석 단계는 크게 4가지 단계로 이루어집니다. 00:12 : 그림을 보시면 첫 번째 나무의 성장, 두 번째 가지치기, 세 번째 타당성 평가, 그다음에 네 번째 해석 및 예측 과정을 거쳐서 00:26 : 의사결정나무의 분석을 마무리할 수 있습니다. 00:29 : 그래서 성장, 가지치기, 타당성 평가, 해석 및 예측에 대해서 한번 알아보도록 하겠습니다. 00:37 : 가장 먼저 나오는 게 나무의 성장입니다. 나무의 성장 같은 경우는 분석의 목적과 자료구조에 따라서 적절한 분리규칙을 찾아서 00:52 : 나무를 성장시키는 과정에서 적절한 정지규칙을 만족하면 성장을 중단한다. 라고 적혀 있습니다. 01:01 : 가장 잘 분리한 규칙이 있을 거라고 했죠. 의사결정나무를 할 때, 이런 식으로 x와 동그라미가 있다고 합시다. 01:11 : 이렇게 겹쳐 있는데 이거를 가장 잘 분리하는 첫 번째 선을 찾아서 해당 특징을 가지고 가장 먼저 분리를 한다고 말씀을 드렸어요. 01:22 : 그래서 해당 규칙을 구한 다음에 나무가 이렇게 성장을 하게 됩니다. 그리고 또 다른 규칙을 찾고, 이런 식으로 계속 진행을 하는데 01:34 : 이 나무 규칙이 계속해서 생성이 되다 보면 불필요한 규칙까지 생성이 될 수 있어요. 그래서 어느 수준에서 멈춰야 된다. 라고 하는 정지규칙도 정해 주어야 됩니다. 01:47 : 그래서 정지규칙이 만약에 세 번째 나무까지만 하겠다. 첫 번째, 두 번째, 세 번째 라인까지만 하겠다. 01:55 : 이것까지만 하겠다고 지정을 해주고 이렇게 생성되는 나무를 확인을 먼저 할 거예요. 02:01 : 이렇게 나무가 성장을 마치게 된다면 가지치기라는 과정을 거칠 겁니다. 02:07 : 가지치기 같은 경우는 오차를 크게 할 위험이 높거나, 부적절한 추론규칙을 가지고 있는 경우. 가지 또는 불필요한 가지를 제거하는 단계예요. 02:23 : 이렇게 나무가 생성, 성장을 했는데요. 이 중에서 불필요한 규칙이 있을 수도 있어요. 02:30 : 이게 정확도라든지 이런 것들이 떨어진다든지, 아니면 전문가가 판단했을 때, 필요하지 않은 가지라고 판단을 할 수 있습니다. 02:38 : 그런 가지는 끊어서 사용하지 않겠다. 하는 이런 것들을 통해서 가지치기를 진행을 합니다. 02:46 : 그러고 나서 완성된 의사결정나무 모형을 이제 평가를 하는 거예요. 02:53 : 앞에서 1절에서 데이터마이닝 개요에서 배웠던 이익도표라든지 아니면 위험도표 혹은 테스트 데이터에 의한 교차 타당성을 이용해서 03:06 : 의사결정나무의 성능을 한번 평가를 합니다. 03:10 : 이렇게 평가를 마치게 되면 이 구축된 의사결정나무를 해석하고, 예측 모형을 선정한 후에, 예측에 적용한다. 03:20 : 그래서 총 4가지의 단계를 거쳐서 의사결정나무에 분석을 할 수 있다. 라는 점 기억을 하시기 바랍니다. 03:31 : 그러면 이 의사결정나무에 대해서 가장 먼저 진행되는 성장에 대해서 간단하게 한번 말씀을 드리면 이렇게 의사결정나무는 네모 박스에 03:45 : 동그라미와 빈 동그라미가 이렇게 있을 거예요. 이거를 가장 잘 분리하는 분리규칙을 먼저 찾는다고 말씀드렸어요. 03:54 : 찾고 또 찾고, 또 찾고 이런 식으로 하는데 이거를 똑같은 공간에서 반복적으로 진행이 되고 있습니다. 그래서 반복적 분할, 재귀적 분할이라고 합니다. 04:06 : 그래서 여기 목적을 한번 보시면 모든 공간을 직사각형으로 나누어서 각 직사각형이 가능한 순수하게, 혹은 동질적이 되도록 하는 것이 목적이에요. 04:21 : 그래서 동그라미 점만 있으면 동그라미 점만 있어야 되고, 빈 점만 있어야 되면 빈 점만 있는 그런 사각형을 찾는 그런 분할을 04:30 : 할 수 있는 기준을 찾는 게 의사결정나무에서 핵심이라고 할 수 있습니다. 04:35 : 그래서 여기서 말하는 순수의 의미는 최종 직사각형에 포함된 변수가 모두 동일한 집단에 속하는 것을 순수다. 라고 표현을 할 수 있습니다. 04:49 : 이런 식의 기준을 가지고 분할을 진행을 하고, 그다음에 분리규칙을 정한 다음에, 그다음에 거기에 맞는 나무를 계속 성장을 해 나갈 것입니다. 04:59 : 그래서 이런 분리 기준을 잡을 수 있는데, 이거는 두 가지로 분리해서 잡아 볼 수가 있을 거예요. 05:06 : 첫 번째는 이산형 목표변수, 두 번째는 연속형 목표변수다. 라고 설명이 되어 있는데 05:12 : 이상형 목표변수는 그냥 분류나무라고 생각을 하시면 돼요. 0이다, 1이다, 2다, 남자다, 여자다, 씨름부다, 농구부다. 이런 식으로 이산형 목표 같은 경우는 05:27 : 범주형 변수에 대해서 분류를 할 때 사용을 하거나 연속형 목표변수 같은 경우는 주로 회귀나무에서 사용하는 거죠. 05:36 : 예측값을 정확하게 구하기 위해서 사용하는 것을 목표변수에 따라서 볼 수 있어요. 그래서 이런 것들을 기준으로 하는 기준값이 각각 존재합니다. 05:46 : 그래서 이산형 목표변수 같은 경우는 카이제곱 통계량의 p 값, 지니 지수, 엔트로피 지수로 이런 것들을 확인을 할 수가 있고, 05:57 : 연속형 목표변수의 경우에는 분산분석에서의 F 통계량, 그다음에 분산의 감소량 이런 걸로 확인을 할 수가 있다. 라고 적혀 있어요. 06:07 : 시험에서 이상형 목표의 변수에 대해서 분리 기준에 대한 기준값을 물어보거나 목표형 변수에 대해서 기준값에 대해서 이런 것들을 물어보는 06:16 : 문제가 나올 수 있으니, 이거는 반드시 기억을 하시고 넘어가셔야 됩니다. 06:23 : p 값 같은 경우는 분리 기준이 어떻게 되냐. 지니 지수도 어떻게 되냐. 이걸 한번 확인해 보면 카이제곱 통계량의 p 값은. 06:32 : p 값이 가장 작은 예측 변수에요. 06:37 : 그리고 그때 최적 분리에 의해서 자식 마디가 생성이 될 거예요. 그래서 만약에 씨름부를 나누는데 키가 190일 때 최적이다. 06:49 : 하면 이게 최적의 분리 기준이 되는 겁니다. 이때 p 값을 구해서 확인을 해보는 거예요. 06:54 : 그리고 지니 지수 같은 경우는 지니 지수를 감소시켜 주는 예측 변수에요. 07:01 : 그리고 그때의 최적분리에 의해서 자식 마디가 선택이 되고 형성이 될 거예요. 07:07 : 엔트로프 지수도 마찬가지로 엔드로퀴지수는 가장 작은 예측변수, 그리고 이때의 최적 분리에 의해 자식 마디를 형성을 한다. 라는 점 기억을 하시기 바랍니다. 07:20 : 그래서 이산형 목표변수 같은 경우는 기준값이 다 낮을 때, 아니면 많이 감소시켜 줄 때. 그때의 최적 분리를 기준으로 삼고 07:29 : 자식 마디를 형성한다. 라고 기억을 하시기 바랍니다. 07:35 : 연속형 목표변수의 경우에는 분산분석의 F 통계량 값은 p 값이 가장 작은 예측 변수와 그때의 최적 분리에 의해서 자식 마디가 생성이 되고요. 07:47 : 분산 감소량의 경우에도 분산 감소량이 최대화되는 기준. 분산 감소량이 최대화된다. 라고 말을 해요. 07:58 : 그래서 분산이 적으면 적을수록 같이 모여 있다고 판단을 할 수가 있을 거예요. 08:01 : 그래서 감소량이 가장 많으면 그거에 대해서 기준을 최적분리로 하고 자식 마디를 형성한다. 08:10 : 그래서 이런 자세한 내용은 암기만 하시고 이런 것들이 있다. 라는 것도 반드시 기억을 하시기 바랍니다. 20:00 :	00:29 ~ 01:29		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :

이전 다음