남은 문제 : 36
문제 1341
다음 중 아래 의사결정나무에서 B의 지니지수를 계산한 결과로 적절한 것은?
보기
1.0.5
2.0.48
3.0.38
4.0.32
정답
4
해시
태그
lADsP 완전 정복l 의사결정나무_1
fScKT1ghr70
00:06
: 의사결정란으로는 Decision Tree라고 표현을 하고요.
00:09
: 이것에 대한 개념을 한번 보고 밑에 그림을 한번 설명을 드릴 수 있도록 하겠습니다.
00:15
: 가장 먼저 의사결정나무는 분류함수를 의사결정 규칙으로 이루어진 나무 모양을 그리는 방법이다. 라고 적혀 있습니다.
00:25
: 그래서 나무구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이루어지는 시점과 성과를 한눈에 볼 수 있게 한다. 라고 적혀 있습니다.
00:38
: 그래서 의사결정나무는 주어진 입력값에 대해서 출력값을 예측하는 모형으로 분류나무랑 회귀나무모형이 있다. 라고 적혀 있습니다.
00:51
: 이게 밑에 그림을 보시면 조금 더 이해가 가실 거예요. 왼쪽 그림 먼저 보시면 x1이라는 값은 키이고, x2는 몸무게입니다.
01:03
: 키랑 몸무게를 가지고 남자인지 여자인지를 분류하는 문제입니다. 그래서 보시면 일반적으로 키가 x1이 158보다 작다고 하면, 예. 이면 어떤 값으로 갈 거고요.
01:20
: 아니요. 하면 아닌 값들 가지고 다시 또 분류를 해 볼 겁니다.
01:26
: 그러면 몸무게가 52보다 작냐. 했을 때 예. 라면 또 어떤 기준값으로 갈 거고요.
01:32
: 그다음에 또 아니면 또 다른 분류 기준값을 가지고 한 번 더 확인을 해 볼 겁니다.
01:38
: 그래서 x2라는 값이 61보다 크냐 했을 때 예. 이면, 또 어떤 값이 나오고요. 아니요. 하면 또 어떤 값으로 이렇게 분류가 될 거예요.
01:49
: 근데 예. 일 때는 분류가 되는 게 아니라 또 어떤 분류 기준값으로 통해서 분류가 진행이 됩니다.
01:55
: 그래서 마지막으로 x1이 172보다 크냐 하면 예. 를 통해서 어떤 분류 값 아니면 또 어떤 분류 값 이런 식으로
02:05
: 기준값에 대해서 특정 기준을 가지고 그 값을 그 값이 맞냐. 아니면 크냐, 작나를 통해서
02:13
: 그다음 층으로 내려가고, 그다음 층으로 내려가고, 그다음 층으로 내려감을 통해서
02:17
: 각각 분류되는 것을 의사결정나무다. 라고 할 수 있습니다.
02:23
: 여기선 이렇게 키랑 몸무게 이런 것들도 할 수가 있고, 여기서 보시면 썼던 게 또 그대로 쓰이고 있어요.
02:31
: 위에서 한번 썼다고 끝나는 게 아니고 x1의. x1을 가지고 위에서 한번 쓰고 또 한 번 쓸 수도 있고요.
02:38
: 한번 사용했던 분류 기준이 x2라는 것도 한 번 썼던 게 여기서도 사용이 될 수가 있다. 라는 점 기억을 하시기 바랍니다.
02:48
: 그래서 이런 규칙이 만들어졌을 때 이런 새로운 데이터가 들어오게 되면 이 규칙에 따라서 0인지. 1인지를 분류를 할 수가 있을 겁니다.
02:59
: 그리고 오른쪽 그림을 보시면 첫 해 임금 상승률이란 게 가장 처음으로 나와요. 그래서 가장 잘 분리하는 기준이 제일 위로 가요.
03:10
: 그래서 가장 잘 분리하는 기준 첫 번째를 제일 위에 두고, 첫 해 임금 상승률에 따라서 x값이 0과 2.5 사이일 때
03:20
: 그리고 2.5부터 99.9일 때, 값을 나눠서 회사에 대한 만족도 이런 것들이 나타낼 수가 있을 겁니다.
03:29
: 그래서 주당 업무 시간이 이 정도이거나 아니면 많을 때
03:34
: 그다음에 건강 계획 기호도에 따라서 회사에 대한 만족도가 배드, 굿. 이런 식으로 분리하는 그런 모형을 만들어 낼 수도 있어요.
03:43
: 그래서 앞에서 말씀드렸던 것처럼 여기서도 첫 해 임금 상승률이 처음에 나올 수는 있는데
03:50
: 밑에서도 이렇게 또 사용이 될 수 있다. 라는 점 반드시 기억을 하시기 바랍니다.
03:57
: 그래서 이 의사결정나무를 한번 보시면 계산 결과 자체가 의사결정나무에 직접 나타나게 됩니다.
04:04
: 이렇게 그래서 분석이 매우 간편하다. 라고 할 수 있어요.
04:09
: 그래서 이런 식으로 하는 분류나무가 있고요. 그다음에 이런 결괏값에 따라서 회귀나무모형.
04:20
: 수치값으로 결괏값이 나오는 그런 형태의 회귀나무모형도 있다. 라는 점 기억을 하시기 바랍니다.
04:27
: 그러면 이런 의사결정나무를 한번 직접 해보는 방향으로 한번 해 볼게요.
04:33
: 다음 그림을 같이 보면서 한번 저희가 보겠습니다.
04:35
: 씨름부, 농구부 각 100명의 키와 몸무게, 허벅지 두께 등의 설명 변수로 의사결정나무를 분석해서, 분류하면 아래와 같은 그림이나 나타난다고 합니다.
04:47
: 씨름부 100명, 그다음에 농구 100명이에요. 이렇게 이런 100명이 있을 때 각각에 대해서 개인 인적 정보도 있을 거예요.
04:59
: 개인정보, 나이, 그다음에 출생지, 이런 것들이 있고, 그다음에 신체 정보라는 게 있겠죠.
05:07
: 키, 몸무게, 허벅지 둘레, 여러 가지의 신체 정보에 대한 정보도 있을 겁니다.
05:15
: 데이터 분석을 수행을 하면. 그래서 이런 식으로 씨름부 100명과, 농구부 100명이 이런 사각형에서 사각 좌표에서 보면 이런 식으로 되어 있을 거예요.
05:30
: 이런 식으로 데이터가 분포가 되어 있을 거예요. 각자의 특징이 있기 때문에 한 곳에 몰리지 않고 이런 특징이 있을 거다.
05:38
: 이렇게 분포하고 있을 거다. 라고 생각이 될 겁니다.
05:44
: 이렇게 데이터가 분포를 하고 있는데 이런 변수들 중에서 이 씨름부랑 농구부를 가장 잘 분리하는 그 기준이 첫 번째로 되는 게 키라고 합니다.
05:56
: 그래서 개인정보와 신체 정보를 가지고 봤을 때, 키를 가지고 이렇게 분리를 했을 때, 선을 그어서 키가 180보다 큰 거에 대해서 데이터를 봤어요.
06:08
: 이게 가장 첫 번째로 분리했을 때, 가장 잘 분리되는 기준이 됩니다. 그래서 키가 180보다 크냐고 물어봤습니다.
06:18
: 그래서 아니다. 그다음에 맞다. 이런 식으로 결괏값을 도출하고 그거에 대해서 이제 또 데이터가 이렇게 분리가 될 겁니다.
06:28
: 그래서 첫 번째 기준이 키라는 것에 대해서 이런 식으로 확인이 가능할 겁니다.
06:33
: 그래서 키를 통해서 씨름부 농구부를 1차적으로 나누게 되었고, 그리고 이제 또 두 번째로 나눌 수 있는 기준이 있을 거예요.
06:43
: 여기서 또 봤을 때 여기 선을 통해서 몸무게를 한번 볼 거예요.
06:50
: 몸무게라는 변수를 그다음으로 분류하는데 아주 좋은 기준이 되었다. 라고 할 때, 몸무게가 85라는 숫자를 기준으로 한번 볼 겁니다.
07:01
: 85보다 크거나 작거나 이런 것들을 통해서 봤을 때, 85보다 몸무게가 작을 때는 농구부가 3명이고, 씨름부는 34명이다. 85보다 클 때.
07:15
: 그리고 몸무게가 85보다 작으면 그 사람들 중에서 60명 중에서 여기는 총 37명이고요. 그다음에 여기서는 23명일 거예요.
07:25
: 그래서 두 개로 분류가 되는 데, 몸무게가 85보다 작은 사람은 17명이 농구부고, 6명이 씨름부로 분류가 되었다. 라고 해서 여기서는 이제 끝이 난 겁니다.
07:35
: 그리고 이쪽 노드로 봤을 때는, 여기서는 보시면 이 기준으로 봤을 때 90이라는 값에 대해서 봤을 때도
07:48
: 90이라는 값을 대해서 봤을 때 작을 때와, 그다음에 90보다 클 때에 대해서 이런 식으로 분리를 하는데
07:53
: 여기서는 더 분리가 나아갈 일이 없기 때문에 여기서 분리를 마쳤습니다.
07:59
: 그리고 씨름부와 농구부에 대해서 68명과 8명으로 분류한 거에 대해서 더 추가로 분리할 수 있는 기준이 허벅지 둘레에 대해서 볼 수가 있을 거예요.
08:11
: 그래서 허벅지 둘레에 대해서 봤을 때, 뭐 이런 식으로 나눴을 때,
08:14
: 허벅지 둘레, 허벅지라고 이렇게 적어서 허벅지 둘레를 보시면 둘레가 90보다 작은지, 큰지에 대해서
08:24
: 이런 식으로 모형을 구분을 해서 분리를 할 수 있을 겁니다.
08:30
: 그래서 이런 식으로 좌표 평면이 이렇게 나타나는데 좌표평면의 데이터가 엄청 빼곡하게 들어가 있을 거예요.
08:38
: 빼곡하거나 아니면 좀 널널하게 들어가 있다든지 그래서 그 데이터가 잘 분리될 수 있는 선을 찾는 거예요. 계속.
08:45
: 그래서 계속 분리해 가서, 분리하고, 분리해서 똑같은 분류. 씨름부만 있든지, 농구부만 있는
08:54
: 그런 사각형을 만드는 거. 그거를 의사결정나무에서 사용을 한다. 라고 생각을 하시면 돼요.
09:00
: 그래서 이런 식으로 구조를 통해서 의사결정나무가 이루어지는구나. 라는 것을 반드시 기억을 하셔야 됩니다.
09:07
: 그래서 하나의 특징을 가질 때마다, 하나의 분류 기준을 가질 때마다 하나의 선을 그어가면서 그것들의 동일한 집단들이 포함되어 있는지를
09:16
: 계속 확인을 해 가면서 동일한 집단이 있을 때까지 한다든지, 아니면 적당한 기준에서 끊는다든지
09:22
: 그렇게까지 진행하는 게 의사결정나무다. 라는 점 기억을 하시기 바랍니다.
20:00
:
02:48
~
04:27
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 의사결정나무_3
ZBJ3SVitmiY
00:06
: 의사결정나무에 분석 단계는 크게 4가지 단계로 이루어집니다.
00:12
: 그림을 보시면 첫 번째 나무의 성장, 두 번째 가지치기, 세 번째 타당성 평가, 그다음에 네 번째 해석 및 예측 과정을 거쳐서
00:26
: 의사결정나무의 분석을 마무리할 수 있습니다.
00:29
: 그래서 성장, 가지치기, 타당성 평가, 해석 및 예측에 대해서 한번 알아보도록 하겠습니다.
00:37
: 가장 먼저 나오는 게 나무의 성장입니다. 나무의 성장 같은 경우는 분석의 목적과 자료구조에 따라서 적절한 분리규칙을 찾아서
00:52
: 나무를 성장시키는 과정에서 적절한 정지규칙을 만족하면 성장을 중단한다. 라고 적혀 있습니다.
01:01
: 가장 잘 분리한 규칙이 있을 거라고 했죠. 의사결정나무를 할 때, 이런 식으로 x와 동그라미가 있다고 합시다.
01:11
: 이렇게 겹쳐 있는데 이거를 가장 잘 분리하는 첫 번째 선을 찾아서 해당 특징을 가지고 가장 먼저 분리를 한다고 말씀을 드렸어요.
01:22
: 그래서 해당 규칙을 구한 다음에 나무가 이렇게 성장을 하게 됩니다. 그리고 또 다른 규칙을 찾고, 이런 식으로 계속 진행을 하는데
01:34
: 이 나무 규칙이 계속해서 생성이 되다 보면 불필요한 규칙까지 생성이 될 수 있어요. 그래서 어느 수준에서 멈춰야 된다. 라고 하는 정지규칙도 정해 주어야 됩니다.
01:47
: 그래서 정지규칙이 만약에 세 번째 나무까지만 하겠다. 첫 번째, 두 번째, 세 번째 라인까지만 하겠다.
01:55
: 이것까지만 하겠다고 지정을 해주고 이렇게 생성되는 나무를 확인을 먼저 할 거예요.
02:01
: 이렇게 나무가 성장을 마치게 된다면 가지치기라는 과정을 거칠 겁니다.
02:07
: 가지치기 같은 경우는 오차를 크게 할 위험이 높거나, 부적절한 추론규칙을 가지고 있는 경우. 가지 또는 불필요한 가지를 제거하는 단계예요.
02:23
: 이렇게 나무가 생성, 성장을 했는데요. 이 중에서 불필요한 규칙이 있을 수도 있어요.
02:30
: 이게 정확도라든지 이런 것들이 떨어진다든지, 아니면 전문가가 판단했을 때, 필요하지 않은 가지라고 판단을 할 수 있습니다.
02:38
: 그런 가지는 끊어서 사용하지 않겠다. 하는 이런 것들을 통해서 가지치기를 진행을 합니다.
02:46
: 그러고 나서 완성된 의사결정나무 모형을 이제 평가를 하는 거예요.
02:53
: 앞에서 1절에서 데이터마이닝 개요에서 배웠던 이익도표라든지 아니면 위험도표 혹은 테스트 데이터에 의한 교차 타당성을 이용해서
03:06
: 의사결정나무의 성능을 한번 평가를 합니다.
03:10
: 이렇게 평가를 마치게 되면 이 구축된 의사결정나무를 해석하고, 예측 모형을 선정한 후에, 예측에 적용한다.
03:20
: 그래서 총 4가지의 단계를 거쳐서 의사결정나무에 분석을 할 수 있다. 라는 점 기억을 하시기 바랍니다.
03:31
: 그러면 이 의사결정나무에 대해서 가장 먼저 진행되는 성장에 대해서 간단하게 한번 말씀을 드리면 이렇게 의사결정나무는 네모 박스에
03:45
: 동그라미와 빈 동그라미가 이렇게 있을 거예요. 이거를 가장 잘 분리하는 분리규칙을 먼저 찾는다고 말씀드렸어요.
03:54
: 찾고 또 찾고, 또 찾고 이런 식으로 하는데 이거를 똑같은 공간에서 반복적으로 진행이 되고 있습니다. 그래서 반복적 분할, 재귀적 분할이라고 합니다.
04:06
: 그래서 여기 목적을 한번 보시면 모든 공간을 직사각형으로 나누어서 각 직사각형이 가능한 순수하게, 혹은 동질적이 되도록 하는 것이 목적이에요.
04:21
: 그래서 동그라미 점만 있으면 동그라미 점만 있어야 되고, 빈 점만 있어야 되면 빈 점만 있는 그런 사각형을 찾는 그런 분할을
04:30
: 할 수 있는 기준을 찾는 게 의사결정나무에서 핵심이라고 할 수 있습니다.
04:35
: 그래서 여기서 말하는 순수의 의미는 최종 직사각형에 포함된 변수가 모두 동일한 집단에 속하는 것을 순수다. 라고 표현을 할 수 있습니다.
04:49
: 이런 식의 기준을 가지고 분할을 진행을 하고, 그다음에 분리규칙을 정한 다음에, 그다음에 거기에 맞는 나무를 계속 성장을 해 나갈 것입니다.
04:59
: 그래서 이런 분리 기준을 잡을 수 있는데, 이거는 두 가지로 분리해서 잡아 볼 수가 있을 거예요.
05:06
: 첫 번째는 이산형 목표변수, 두 번째는 연속형 목표변수다. 라고 설명이 되어 있는데
05:12
: 이상형 목표변수는 그냥 분류나무라고 생각을 하시면 돼요. 0이다, 1이다, 2다, 남자다, 여자다, 씨름부다, 농구부다. 이런 식으로 이산형 목표 같은 경우는
05:27
: 범주형 변수에 대해서 분류를 할 때 사용을 하거나 연속형 목표변수 같은 경우는 주로 회귀나무에서 사용하는 거죠.
05:36
: 예측값을 정확하게 구하기 위해서 사용하는 것을 목표변수에 따라서 볼 수 있어요. 그래서 이런 것들을 기준으로 하는 기준값이 각각 존재합니다.
05:46
: 그래서 이산형 목표변수 같은 경우는 카이제곱 통계량의 p 값, 지니 지수, 엔트로피 지수로 이런 것들을 확인을 할 수가 있고,
05:57
: 연속형 목표변수의 경우에는 분산분석에서의 F 통계량, 그다음에 분산의 감소량 이런 걸로 확인을 할 수가 있다. 라고 적혀 있어요.
06:07
: 시험에서 이상형 목표의 변수에 대해서 분리 기준에 대한 기준값을 물어보거나 목표형 변수에 대해서 기준값에 대해서 이런 것들을 물어보는
06:16
: 문제가 나올 수 있으니, 이거는 반드시 기억을 하시고 넘어가셔야 됩니다.
06:23
: p 값 같은 경우는 분리 기준이 어떻게 되냐. 지니 지수도 어떻게 되냐. 이걸 한번 확인해 보면 카이제곱 통계량의 p 값은.
06:32
: p 값이 가장 작은 예측 변수에요.
06:37
: 그리고 그때 최적 분리에 의해서 자식 마디가 생성이 될 거예요. 그래서 만약에 씨름부를 나누는데 키가 190일 때 최적이다.
06:49
: 하면 이게 최적의 분리 기준이 되는 겁니다. 이때 p 값을 구해서 확인을 해보는 거예요.
06:54
: 그리고 지니 지수 같은 경우는 지니 지수를 감소시켜 주는 예측 변수에요.
07:01
: 그리고 그때의 최적분리에 의해서 자식 마디가 선택이 되고 형성이 될 거예요.
07:07
: 엔트로프 지수도 마찬가지로 엔드로퀴지수는 가장 작은 예측변수, 그리고 이때의 최적 분리에 의해 자식 마디를 형성을 한다. 라는 점 기억을 하시기 바랍니다.
07:20
: 그래서 이산형 목표변수 같은 경우는 기준값이 다 낮을 때, 아니면 많이 감소시켜 줄 때. 그때의 최적 분리를 기준으로 삼고
07:29
: 자식 마디를 형성한다. 라고 기억을 하시기 바랍니다.
07:35
: 연속형 목표변수의 경우에는 분산분석의 F 통계량 값은 p 값이 가장 작은 예측 변수와 그때의 최적 분리에 의해서 자식 마디가 생성이 되고요.
07:47
: 분산 감소량의 경우에도 분산 감소량이 최대화되는 기준. 분산 감소량이 최대화된다. 라고 말을 해요.
07:58
: 그래서 분산이 적으면 적을수록 같이 모여 있다고 판단을 할 수가 있을 거예요.
08:01
: 그래서 감소량이 가장 많으면 그거에 대해서 기준을 최적분리로 하고 자식 마디를 형성한다.
08:10
: 그래서 이런 자세한 내용은 암기만 하시고 이런 것들이 있다. 라는 것도 반드시 기억을 하시기 바랍니다.
20:00
:
06:54
~
08:14
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 의사결정나무_4
mPpYN8kdxFI
00:05
: 앞에서 말씀드렸던 것처럼 나무를 성장을 하면서 정지기준이라든지 가지치기에 대한 기준이 있을 거예요.
00:14
: 이거를 어떻게 잡느냐도 매우 중요합니다.
00:17
: 한번 보시면 정지기준 같은 경우는 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 거예요.
00:27
: 아까 말씀드린 것처럼 이런 기준에 대해서 계속 생기다가 네 번째에서 멈추겠다. 하시면
00:36
: 이런 식으로 봤을 때, 여기서 더 나가지 않고 여기까지만 모형을 완성을 시킨 다음에 마무리를 하는 거예요.
00:45
: 그래서 정지 기준을 최대 깊이를 4까지만 하겠다. 라고 지정을 하시면 이렇게 네 번째까지만 간다. 라는 점 기억을 하시면 됩니다.
00:56
: 그래서 의사결정나무에 깊이를 지정한다.
01:00
: 그래서 여기 깊이가 첫 번째, 두 번째, 세 번째, 네 번째다. 하면 여기까지만 하겠다. 라고 기억을 하시면 돼요.
01:08
: 그리고 끝마디에 레코드 수의 최소 개수를 지정을 할 수도 있어요.
01:13
: 만약에 1,000명을 분류를 하는데 여기서 500명, 500, 여기서 200, 300 여기 분류해서 최소 지정을 130명을 했다.
01:29
: 130명에 맞춘다. 하면 정지한다고 하면 여기서 바로 120이나 뭐 이런 숫자들이 나오면 끝나는 거예요.
01:39
: 그래서 여기까지만 하고 그만하겠다. 라고 판단을 하시면 됩니다.
01:44
: 이렇게 정지규칙을 직접 지정을 할 수도 있어요. 나는 몇 번째 깊이까지만 가겠다.
01:50
: 아니면은 여기 적힌 대로 끝마디에 레코드 수의 최소 개수를 지정을 해서 마무리를 할 수도 있습니다.
01:59
: 그리고 이렇게 정지기준까지 하면 의사결정나무에 대한 모형 1차적으로 완성이 되겠죠. 이런 식으로.
02:08
: 그러면 이렇게 완성된 모형에서 이제 가지치기를 진행을 해야 된다고 했어요.
02:13
: 가지치기를 하는 목적이 첫 번째로는 가지가 너무 많으면 이 모형 자체가 오버피팅이 일어날 수 있습니다.
02:24
: 오버피팅에 대해서 한 번씩 말씀드렸는데 여기서 자세히 한번 보면 오차율이라는 게 있어요.
02:31
: 잘못 분류한. 그래서 처음에 학습용 데이터로는 이렇게 분할 마디 수가 계속 늘어날 때 증가함에 따라서 오차율 자체가 엄청 줄어듭니다.
02:42
: 줄어드는데 그러면은 이런 모형을 하나 만들었어요. 이 모형을 가지고 밸리데이션이나 테스트를 해봐야 될 겁니다.
02:51
: 그렇게 진행을 했는데 진행을 했을 때 처음에는 같이 잘 내려가다가 그 테스트가. 갑자기 다시 올라가요. 오차가.
02:59
: 이런 상태가 이 학습용 데이터에 모형이 너무 잘 학습이 된 거예요.
03:05
: 그 데이터로만 학습이 너무 잘 돼서 새로운 데이터가 들어왔을 때 분류를 못하는 경우가 생겨요.
03:12
: 그걸 바로 과대적합이다. 그리고 오버피팅이다. 이런 문제가 생기기 때문에 저희는 이 분할 마디 수를 잘라 줘야 됩니다.
03:23
: 필요 없는 분할 마디는 제거를 해줘야 돼요. 그래서 저희가 수행을 하는 게 가지치기란 것을 수행을 하는 겁니다.
03:31
: 그래서 이 가지치기에 대해서 내용을 한번 보시면 처음에는 첫 번째는 방법이 테스트 데이터를 활용하는 방법이 있어요.
03:39
: 이렇게 만들어진 모형의 테스트 데이터를 적용을 했을 때 과대적합이 일어나는지 한번 먼저 파악을 해봅니다.
03:47
: 그래서 구축된 모형의 테스트 데이터를 적용합니다.
03:52
: 테스트 데이터를 통해서 도출된 모형의 예측률을 검토를 할 겁니다.
03:57
: 그래서 오분류율을 크게 할 위험이 높거나, 부적절한 추론규칙을 가지고 있는 가지는 반드시 제거해야 됩니다.
04:12
: 그래서 그런 가지들은 제거하고 분석할 수 있는 모형을 완성시켜 나갈 수 있습니다.
04:19
: 두 번째 방법으로는 전문가에 의한 방법이 있어요.
04:23
: 전문가에 의한 방법은 특정 분야의 전문가가 구축된 모형에서 제시하고 있는 규칙들을, 타당성을 직접 검토합니다.
04:33
: 이렇게 되면 만약에 농구부와 씨름부를 나누는 모형을 봤을 때, 키가 190 이상이라고 생각했을 때 모형이 나왔는데
04:44
: 직접 씨름 전문가라든지, 전문 의사분들이 만약에 봤을 때 이거는 좀 적절하지 않은 규칙 같다. 하는 것은
04:53
: 그런 규칙은 제외를 시키는 거예요. 그래서 전문가들이 한번 보고 판단을 하는 거예요
04:58
: 그래서 타당성이 없어 보이는 규칙 같은 경우는 제거해야 된다. 라고 표현을 해서
05:04
: 가지치기를 통해서 두 가지 방법을 통해 가지를 칠 수 있다. 라고 기억을 해주시기 바랍니다.
05:12
: 그럼 전 페이지에서 이렇게 분리 기준에 대한 목표 변숫값이 기준값이 이렇게 있어요.
05:17
: 그러면 이 중에서 지니 지수하고 엔트로피 지수를 어떻게 구하는지 한번 판단을 해 볼게요. 확인을 해보겠습니다.
05:25
: 지니인덱스라고 표현을 하고요.
05:27
: 지니 지수를 감소시켜 주는 예측 변수와 그때 최적 분리에 의해서 자식 마디를 선택을 한다고 했어요.
05:35
: 그래서 지니 지수 값이 클수록 이질적이에요. 그리고 순수도가 낮아요. 그렇기 때문에 지니 지수 값은 낮을수록 좋습니다.
05:47
: 낮을수록 좋다. 라는 점 기억을 하시기 바랍니다. 그래서 이 지니 지수를 구하는 방법은 아래의 산식에 따라서 구할 수가 있습니다.
05:57
: -1 시그마 1부터 k까지 갈 때 pi의 제곱승이다. 라고 할 수 있어요.
06:05
: 이거는 시험 문제에 한 번씩 구하는 식이 나오기 때문에 한번 직접 구해 보도록 하겠습니다.
06:11
: 위의 것과 밑의 것을 한번 보시면, 밑에는 동물들이 종류가 하나, 둘, 셋, 네 가지가 이렇게 있는 걸 알 수 있습니다.
06:24
: 각각 다른 종류의 동물들이 있기 때문에, 이것은 동물들이 한곳에 모여 있어서 좀 지니 지수가 높게 나타날 수도 있을 것 같아요.
06:34
: 직접 한번 구해보면 똑같은 동물들의 종류별로 해서 구해 볼 겁니다.
06:41
: 전체 1에서 빼기 사슴을 3개, 그다음에 코뿔소는 세모로 하나, 그다음에 타조는 네모, 마지막으로 사자는 별표라고 합시다.
06:56
: 그러면 계산식을 구해보면 총 8마리겠죠.
07:01
: 하나, 둘, 셋, 넷, 다섯, 여섯, 일곱, 여덟 마리, 여덟 마리이기 때문에 8분의 사슴이 동그라미가 총 3개가 있어요.
07:10
: 3개 제곱 값. 그다음에 빼기 또 타조가 있습니다. 8분의 3의 제곱 빼기 그다음에 코뿔소 8분의 1의 제곱 빼기
07:23
: 사자 8분의 1의 제곱 이렇게 나타내면 이 결괏값이 0.69라는 값이 나옵니다.
07:34
: 그래서 0에서 1 사이의 값이 나올 건데, 0.96이라는 값이 나와서. 높은 값이 나와서 좀 이질적이다. 라고 할 수가 있어요.
07:44
: 이 공간 안에 있는 동물들은 그래서 각기 다른 종류의 동물들이 많다. 라고 판단을 할 수가 있어요.
07:53
: 그래서 밑을 보시면은 이거는 얼룩말이 총 7마리 중에서 6마리고요. 그다음에 하마가 한 마리가 있습니다.
08:03
: 그래서 지니 지수를 구해 보시면 1 - 7분에 6의 제곱 빼기, 7분의 1의 제곱은 0.24다. 해서
08:14
: 지니 지수가 매우 낮게 나타난다. 라는 걸 확인을 할 수 있을 거예요.
08:19
: 이렇게 시험 문제에 산식을 구하는 문제가 나올 수 있으니까요.
08:25
: 산식 같은 경우는 기억을 하고 계셔야 됩니다. 다음으로 볼 수 있는 건 엔트로피 지수예요.
08:31
: 이 엔트로피 지수는 열역학에서 쓰는 개념으로 무질서도에 대한 측도예요.
08:37
: 그래서 엔트로피 지수도 값이 클수록 순수도가 낮다고 볼 수가 있습니다.
08:43
: 밑에 예시를 간단하게 보고 넘어갈게요. 그전에 이 산식을 보시면 -시그마 1부터 k까지 갈 때
08:51
: p의 확률과 로그 2의 확률 pi를 다 더한 값이 바로 엔트로피 지수가 된다. 라고 기억을 하시면 돼요.
09:01
: 그래서 밑에 예시를 보시면 4개의 범주가 0.25씩 4개가 되어 있습니다.
09:07
: 이렇게 구성이 되어 있을 때, 엔트로비 지수를 구했을 때는 총 확률이 다 동일하게 4분의 1인 0.25로 통일이 될 거예요.
09:17
: 0.25에 대해서 4가지가 있고, 똑같은 값이기 때문에 4개를 곱할 거예요.
09:23
: 그래서 마이너스 0.25, 로그 2의 0.25 곱하기 4를 했을 때 1.39라는 값이 나와서 이런 식으로 엔트로피 지수를 구하실 수 있습니다.
09:36
: 그래서 지니 지수라든지 엔트로피 지수는 수식을 기억하시고 나중에 시험을 치실 때 직접 구하는 경우가 있으니까 반드시 기억을 하고 있으셔야 됩니다.
09:49
: 그러면 이런 식으로 의사결정나무에 대해서 어떻게 생성이 되고 그다음에 의사결정나무의 가지치기라든지
09:57
: 아니면 정지규칙 이런 것들에 대해서 한번 개념을 알아봤는데
10:02
: 그러면 이런 의사결정나무의 방법 알고리즘이 어떤 것들인지도 한번 확인을 해보겠습니다.
20:00
:
05:17
~
07:34
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음