해시 태그
lADsP 완전 정복l 의사결정나무_1 fScKT1ghr70
00:06 : 의사결정란으로는 Decision Tree라고 표현을 하고요.
00:09 : 이것에 대한 개념을 한번 보고 밑에 그림을 한번 설명을 드릴 수 있도록 하겠습니다.
00:15 : 가장 먼저 의사결정나무는 분류함수를 의사결정 규칙으로 이루어진 나무 모양을 그리는 방법이다. 라고 적혀 있습니다.
00:25 : 그래서 나무구조는 연속적으로 발생하는 의사결정 문제를 시각화해 의사결정이 이루어지는 시점과 성과를 한눈에 볼 수 있게 한다. 라고 적혀 있습니다.
00:38 : 그래서 의사결정나무는 주어진 입력값에 대해서 출력값을 예측하는 모형으로 분류나무랑 회귀나무모형이 있다. 라고 적혀 있습니다.
00:51 : 이게 밑에 그림을 보시면 조금 더 이해가 가실 거예요. 왼쪽 그림 먼저 보시면 x1이라는 값은 키이고, x2는 몸무게입니다.
01:03 : 키랑 몸무게를 가지고 남자인지 여자인지를 분류하는 문제입니다. 그래서 보시면 일반적으로 키가 x1이 158보다 작다고 하면, 예. 이면 어떤 값으로 갈 거고요.
01:20 : 아니요. 하면 아닌 값들 가지고 다시 또 분류를 해 볼 겁니다.
01:26 : 그러면 몸무게가 52보다 작냐. 했을 때 예. 라면 또 어떤 기준값으로 갈 거고요.
01:32 : 그다음에 또 아니면 또 다른 분류 기준값을 가지고 한 번 더 확인을 해 볼 겁니다.
01:38 : 그래서 x2라는 값이 61보다 크냐 했을 때 예. 이면, 또 어떤 값이 나오고요. 아니요. 하면 또 어떤 값으로 이렇게 분류가 될 거예요.
01:49 : 근데 예. 일 때는 분류가 되는 게 아니라 또 어떤 분류 기준값으로 통해서 분류가 진행이 됩니다.
01:55 : 그래서 마지막으로 x1이 172보다 크냐 하면 예. 를 통해서 어떤 분류 값 아니면 또 어떤 분류 값 이런 식으로
02:05 : 기준값에 대해서 특정 기준을 가지고 그 값을 그 값이 맞냐. 아니면 크냐, 작나를 통해서
02:13 : 그다음 층으로 내려가고, 그다음 층으로 내려가고, 그다음 층으로 내려감을 통해서
02:17 : 각각 분류되는 것을 의사결정나무다. 라고 할 수 있습니다.
02:23 : 여기선 이렇게 키랑 몸무게 이런 것들도 할 수가 있고, 여기서 보시면 썼던 게 또 그대로 쓰이고 있어요.
02:31 : 위에서 한번 썼다고 끝나는 게 아니고 x1의. x1을 가지고 위에서 한번 쓰고 또 한 번 쓸 수도 있고요.
02:38 : 한번 사용했던 분류 기준이 x2라는 것도 한 번 썼던 게 여기서도 사용이 될 수가 있다. 라는 점 기억을 하시기 바랍니다.
02:48 : 그래서 이런 규칙이 만들어졌을 때 이런 새로운 데이터가 들어오게 되면 이 규칙에 따라서 0인지. 1인지를 분류를 할 수가 있을 겁니다.
02:59 : 그리고 오른쪽 그림을 보시면 첫 해 임금 상승률이란 게 가장 처음으로 나와요. 그래서 가장 잘 분리하는 기준이 제일 위로 가요.
03:10 : 그래서 가장 잘 분리하는 기준 첫 번째를 제일 위에 두고, 첫 해 임금 상승률에 따라서 x값이 0과 2.5 사이일 때
03:20 : 그리고 2.5부터 99.9일 때, 값을 나눠서 회사에 대한 만족도 이런 것들이 나타낼 수가 있을 겁니다.
03:29 : 그래서 주당 업무 시간이 이 정도이거나 아니면 많을 때
03:34 : 그다음에 건강 계획 기호도에 따라서 회사에 대한 만족도가 배드, 굿. 이런 식으로 분리하는 그런 모형을 만들어 낼 수도 있어요.
03:43 : 그래서 앞에서 말씀드렸던 것처럼 여기서도 첫 해 임금 상승률이 처음에 나올 수는 있는데
03:50 : 밑에서도 이렇게 또 사용이 될 수 있다. 라는 점 반드시 기억을 하시기 바랍니다.
03:57 : 그래서 이 의사결정나무를 한번 보시면 계산 결과 자체가 의사결정나무에 직접 나타나게 됩니다.
04:04 : 이렇게 그래서 분석이 매우 간편하다. 라고 할 수 있어요.
04:09 : 그래서 이런 식으로 하는 분류나무가 있고요. 그다음에 이런 결괏값에 따라서 회귀나무모형.
04:20 : 수치값으로 결괏값이 나오는 그런 형태의 회귀나무모형도 있다. 라는 점 기억을 하시기 바랍니다.
04:27 : 그러면 이런 의사결정나무를 한번 직접 해보는 방향으로 한번 해 볼게요.
04:33 : 다음 그림을 같이 보면서 한번 저희가 보겠습니다.
04:35 : 씨름부, 농구부 각 100명의 키와 몸무게, 허벅지 두께 등의 설명 변수로 의사결정나무를 분석해서, 분류하면 아래와 같은 그림이나 나타난다고 합니다.
04:47 : 씨름부 100명, 그다음에 농구 100명이에요. 이렇게 이런 100명이 있을 때 각각에 대해서 개인 인적 정보도 있을 거예요.
04:59 : 개인정보, 나이, 그다음에 출생지, 이런 것들이 있고, 그다음에 신체 정보라는 게 있겠죠.
05:07 : 키, 몸무게, 허벅지 둘레, 여러 가지의 신체 정보에 대한 정보도 있을 겁니다.
05:15 : 데이터 분석을 수행을 하면. 그래서 이런 식으로 씨름부 100명과, 농구부 100명이 이런 사각형에서 사각 좌표에서 보면 이런 식으로 되어 있을 거예요.
05:30 : 이런 식으로 데이터가 분포가 되어 있을 거예요. 각자의 특징이 있기 때문에 한 곳에 몰리지 않고 이런 특징이 있을 거다.
05:38 : 이렇게 분포하고 있을 거다. 라고 생각이 될 겁니다.
05:44 : 이렇게 데이터가 분포를 하고 있는데 이런 변수들 중에서 이 씨름부랑 농구부를 가장 잘 분리하는 그 기준이 첫 번째로 되는 게 키라고 합니다.
05:56 : 그래서 개인정보와 신체 정보를 가지고 봤을 때, 키를 가지고 이렇게 분리를 했을 때, 선을 그어서 키가 180보다 큰 거에 대해서 데이터를 봤어요.
06:08 : 이게 가장 첫 번째로 분리했을 때, 가장 잘 분리되는 기준이 됩니다. 그래서 키가 180보다 크냐고 물어봤습니다.
06:18 : 그래서 아니다. 그다음에 맞다. 이런 식으로 결괏값을 도출하고 그거에 대해서 이제 또 데이터가 이렇게 분리가 될 겁니다.
06:28 : 그래서 첫 번째 기준이 키라는 것에 대해서 이런 식으로 확인이 가능할 겁니다.
06:33 : 그래서 키를 통해서 씨름부 농구부를 1차적으로 나누게 되었고, 그리고 이제 또 두 번째로 나눌 수 있는 기준이 있을 거예요.
06:43 : 여기서 또 봤을 때 여기 선을 통해서 몸무게를 한번 볼 거예요.
06:50 : 몸무게라는 변수를 그다음으로 분류하는데 아주 좋은 기준이 되었다. 라고 할 때, 몸무게가 85라는 숫자를 기준으로 한번 볼 겁니다.
07:01 : 85보다 크거나 작거나 이런 것들을 통해서 봤을 때, 85보다 몸무게가 작을 때는 농구부가 3명이고, 씨름부는 34명이다. 85보다 클 때.
07:15 : 그리고 몸무게가 85보다 작으면 그 사람들 중에서 60명 중에서 여기는 총 37명이고요. 그다음에 여기서는 23명일 거예요.
07:25 : 그래서 두 개로 분류가 되는 데, 몸무게가 85보다 작은 사람은 17명이 농구부고, 6명이 씨름부로 분류가 되었다. 라고 해서 여기서는 이제 끝이 난 겁니다.
07:35 : 그리고 이쪽 노드로 봤을 때는, 여기서는 보시면 이 기준으로 봤을 때 90이라는 값에 대해서 봤을 때도
07:48 : 90이라는 값을 대해서 봤을 때 작을 때와, 그다음에 90보다 클 때에 대해서 이런 식으로 분리를 하는데
07:53 : 여기서는 더 분리가 나아갈 일이 없기 때문에 여기서 분리를 마쳤습니다.
07:59 : 그리고 씨름부와 농구부에 대해서 68명과 8명으로 분류한 거에 대해서 더 추가로 분리할 수 있는 기준이 허벅지 둘레에 대해서 볼 수가 있을 거예요.
08:11 : 그래서 허벅지 둘레에 대해서 봤을 때, 뭐 이런 식으로 나눴을 때,
08:14 : 허벅지 둘레, 허벅지라고 이렇게 적어서 허벅지 둘레를 보시면 둘레가 90보다 작은지, 큰지에 대해서
08:24 : 이런 식으로 모형을 구분을 해서 분리를 할 수 있을 겁니다.
08:30 : 그래서 이런 식으로 좌표 평면이 이렇게 나타나는데 좌표평면의 데이터가 엄청 빼곡하게 들어가 있을 거예요.
08:38 : 빼곡하거나 아니면 좀 널널하게 들어가 있다든지 그래서 그 데이터가 잘 분리될 수 있는 선을 찾는 거예요. 계속.
08:45 : 그래서 계속 분리해 가서, 분리하고, 분리해서 똑같은 분류. 씨름부만 있든지, 농구부만 있는
08:54 : 그런 사각형을 만드는 거. 그거를 의사결정나무에서 사용을 한다. 라고 생각을 하시면 돼요.
09:00 : 그래서 이런 식으로 구조를 통해서 의사결정나무가 이루어지는구나. 라는 것을 반드시 기억을 하셔야 됩니다.
09:07 : 그래서 하나의 특징을 가질 때마다, 하나의 분류 기준을 가질 때마다 하나의 선을 그어가면서 그것들의 동일한 집단들이 포함되어 있는지를
09:16 : 계속 확인을 해 가면서 동일한 집단이 있을 때까지 한다든지, 아니면 적당한 기준에서 끊는다든지
09:22 : 그렇게까지 진행하는 게 의사결정나무다. 라는 점 기억을 하시기 바랍니다.
20:00 :
00:51 ~ 02:23
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 의사결정나무_2 9j77AOhWqAw
00:05 : 이런 의사결정나무를 활용하는 방법이 어떤 것들이 있는가. 활용하는 것에 대해서 한번 확인을 해 볼게요.
00:11 : 의사결정나무 같은 경우는 첫 번째 세분화에 사용을 합니다.
00:16 : 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할을 해서 그룹별 특성을 발견을 할 거예요.
00:23 : 허벅지가 두껍고, 허벅지가 둘레가 90cm 이상, 키가 190 이상이면 씨름부 선수다.
00:35 : 이런 식으로 특성을 가질 수 있는 분류 기준을 가지고 이렇게 비슷한 특성을 갖는 몇 개의 그룹을 분할해서 그룹의 특성을 발견할 수 있어요.
00:44 : 그래서 이렇게 씨름부다 할 수 있는 것은 씨름부는. 그러면은 반대로 보면
00:50 : 허벅지가 두껍고 키가 큰 사람들이다. 라고 특성을 발견할 수 있는 거예요.
00:55 : 그래서 이런 특성을 세분화해서 확인을 할 수가 있을 겁니다.
00:59 : 그리고 두 번째로는 분류를 할 수 있어요. 앞에서 했던 것처럼 분류가 가능하게 돼요.
01:06 : 그래서 관측 개체를 여러 예측 변수들에 근거해서, 여러 예측 변수 같은 경우는 앞에서 말씀드린 키, 몸무게, 허벅지 등의 변수들이 있을 겁니다.
01:21 : 그다음에 의사결정나무에서 이렇게 키가 아니라 선수들을 분류하는 게 아니라
01:28 : 우, 불량을 분류한다. 생각하시면. 통장 잔고. 빚을 크기라고 표현을 한번 해 볼게요.
01:36 : 빚이 얼만큼 많은지 이런 것들 그다음에 자가 소유 여부, 이런 것들을 가지고 이런 예측 변수들을 가지고
01:44 : 목표 변수의 범주를 몇 개의 등급으로 분류하고자 할 때
01:49 : 만약에 우량, 불량 두 개로 하든지, 아니면 앞에서 말씀드린 실버, 골드, vip, vvip 이런 식으로 네 가지로 구분하든지
02:00 : 분류하는데도 의사결정나무를 활용을 할 수 있습니다. 그래서 이런 식으로도 활용을 할 수가 있고요.
02:08 : 세 번째로 나오는 건 예측이에요. 의사결정나무가 그냥 분류할 때만 사용하는 게 아니라 회귀나무모형이라는 게 있다고 했어요.
02:18 : 회귀나무모형을 통해서 값을 예측을 할 수 있어요.
02:21 : 그래서 자료에 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우, 이럴 때도 의사결정나무를 사용할 수 있다고 말씀을 드릴 수 있습니다.
02:35 : 그리고 차원의 축소 및 변수 선택에도 사용을 할 수 있다. 라고 적혀 있어요. 내용을 한번 보시면 매우 많은 수의 예측 변수 중에서
02:48 : 목표 변수에 큰 영향을 미치는 변수를 골라내고자 하는 경우에 사용할 수 있다.
02:57 : 앞에서 말씀드린 것처럼 의사결정나무 같은 경우는 제일 위에 나타나는 이게 이 기준이 데이터를 분할할 수 있는 가장 중요한 분류 기준이라고 했어요.
03:11 : 앞에서 말했던 것처럼 씨름부랑 농구부를 분류하는데 이것을 분류하는데
03:17 : 키 180 이상이 가장 첫 번째로 분류하는데 좋은 분류 기준이 된다고 해서 가장 먼저 나왔다고 했죠.
03:28 : 그래서 그다음으로 나오는 분류 기준, 그다음으로 나오는 분류 기준.
03:33 : 이런 것들을 통해서 데이터 분석을 하시면 아마 범주가 칼럼. 변수가 매우 많을 거예요.
03:40 : 그중에서 중요한 변수 여기서부터 다섯 번째 변수까지만 뽑아서 분석을 한다든지,
03:45 : 그런 것에도 사용을 할 수 있는 게 의사결정나무다. 라고 해석을 하실 수 있을 거예요.
03:50 : 그래서 의사결정나무를 통해서 차원을 축소할 수가 있어요.
03:54 : 100개 되는 것 중에서 5개만 선택한다든지, 아니면 변수를 선택할 수도 있다.라고 말씀을 드릴 수가 있다.
04:02 : 그리고 교호작용에 효과 파악에도 사용이 가능하다고 합니다.
04:06 : 여러 개의 예측 변수들이 결합을 해서 목표변수에 어떻게 작용하는지 파악하고자 하는 경우에 교호작용에 효과를 파악을 할 수도 있습니다.
04:17 : 그래서 키가 180 이상이고, 몸무게가 80kg 이상이면 어떤 사람인지 파악이 가능하겠죠.
04:28 : 원래는 키 하나의 변수에 대해서 먼저 파악을 할 수 있었지만, 이 두 가지 변수를 같이 결합해서 볼 수 있을 거예요. 결과가.
04:38 : 그래서 어떤 특징을 가진 사람이 나타날 거다. 라고 해석이 가능할 겁니다.
04:42 : 그래서 이런 것들을 하나의 변수만 가지고 보는 게 아니라, 두 개의 변수를 같이 교호적으로 본다. 상호작용을 통해서 본다. 라고 할 수도 있어요.
04:52 : 그래서 interaction effect identification이라고 표현을 합니다. 그래서 교호작용효과를 통해서 이런 사람이 나타날 수도 있다.
04:59 : 목표 변수가 나타난다. 이런 거를 파악을 할 수도 있다. 라는 점 기억을 하시고요.
05:04 : 그리고 마지막으로 범주의 병합 또는 연속형 변수의 이산화가 가능하다.
05:09 : 범주형 목표 변수에 범주를 소수의 몇 개로 병합하거나 범주가 너무 많으면 줄여야겠죠.
05:19 : 아니면 연속형 목표 변수를 몇 개의 등급으로 이산화하는 경우. 그럴 때도 의사결정나무를 사용을 할 수 있다. 라는 점 기억을 하시기 바랍니다.
05:31 : 이렇게 의사결정나무를 활용하는 방법은 총 6가지가 있습니다. 그래서 이렇게 나타나는 거 내용은 기억을 하고 계셔야 돼요.
05:40 : 다음으로 나타나는 것은 의사결정나무의 장점과, 단점에 대한 내용이에요. 의사결정나무의 장점을 한번 읽어 볼게요.
05:48 : 보시면 누구나 결과를 보고 설명하기 용이하다. 여러분들이 처음 봐도 어떤 기준에 대해서 맞다, 아니다. 그 사이의 결괏값이 있다. 했을 때.
05:59 : 이렇게 분류가 되고, 여기서도 이렇게 분류가 되고, 여기서 이렇게 분류가 되고, 이런 그림을 보고, 쉽게 이해하실 수가 있을 거예요.
06:07 : 그래서 결과를 누구에게나 설명하기 매우 용이합니다.
06:11 : 그리고 두 번째로 분류 정확도가 좋다. 다른 모형에 비해서 분류 정확도가 매우 좋게 나타나는 장점이 있습니다.
06:20 : 그리고 모형을 만드는데 방법이 계산적으로 복잡하지 않습니다.
06:26 : 특정 기준을 가지고 그 기준값만 만들어 주면 되기 때문에 계산적으로 복잡하진 않아요.
06:32 : 따로 어떤 지수가 들어가고 이런 것들이 없기 때문에. 그리고 대용량 데이터에서도 빠르게 만들 수가 있습니다.
06:41 : 그리고 비정상 잡음 데이터에 대해서도 민감함 없이 분류할 수도 있다. 비정상 잡음 데이터에 대해서 민감함 없이 분류할 수 있다.
06:53 : 이거는 좀 중요한 게 뭐냐면 보통 분석을 할 때, 이상치에 대해서 모형의 성능이 좌지우지하는 경우도 있었어요.
07:01 : 그래서 이상치를 제거한다든지 그렇게 분석을 주로 많이 사용을 하는데
07:07 : 의사결정나무 같은 경우는 특정 값 기준을 통해서 만약에 몸무게가 150kg인 사람이 있어도
07:16 : 그냥 90kg보다 크거나 작은 거에 대해서 판단을 하면 되기 때문에 이 이상치도 민감한 없이 그냥 분류를 할 수가 있는 거예요.
07:24 : 그래서 이런 특징이 있기 때문에 주로 의사결정나무를 많이 활용을 합니다.
07:28 : 그리고 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향을 받지 않는다.
07:34 : 앞에서 말씀드린 것처럼 그런 이상치가 있다든지, 아니면 두 가지 값에 대해서 서로 상관성이 높으면
07:42 : 보통 회귀분석에서는 VIF 값이 높으면, 그 변수들은 제거를 하고 분석을 해야 되지만 의사결정나무에서는 그럴 필요가 없습니다.
07:54 : 그래서 이런 변수가 일단 좀 상관이 있어도, 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향을 받지 않아요.
08:06 : 근데 내용을 밑에 한번 보시면 불필요한 변수가 많아지면 의사결정나무가 커져요.
08:15 : 분리 기준이 너무 많아지면 나무가 엄청 커집니다. 계속 내려가요.
08:21 : 이렇게 내려가고, 이렇게도 내려가고, 이렇게 내려가고 분류 기준이 계속 많아지면 모형 자체가 커지기 때문에 그 모형이
08:31 : 사용할 수가 없는 모형이 될 수도 있습니다.
08:34 : 그렇기 때문에 이런 변수들 같은 경우는 미리 좀 삭제를 하고 분석을 하는 게 맞는 방법이다. 라고 기억을 하시면 돼요.
08:42 : 그래서 장점 같은 경우는 시험에 나올 수가 있어요.
08:45 : 장점은 보통은 하나, 둘, 셋, 넷, 다섯 개. 이 정도는 시험에 한 번씩 나타나는 내용이기 때문에 반드시 기억하시기 바랍니다.
08:56 : 그리고 의사결정나무의 단점 같은 경우는 새로운 자료에 대한 과대적합이 발생할 가능성이 높다.
09:03 : 새로운 자료가 들어오면 과대적합이 발생할 가능성이 높다.
09:07 : 트레인 데이터를 가지고 모형을 만들어서 성능을 봤을 때는 일반적이었는데
09:12 : 밸리데이션 데이터를 가지고 모형을 성능을 파악을 했을 때는 성능이 매우 낮게 나온다.
09:18 : 트레인으로는 높게 나옵니다. 이랬을 때 이 트레인 데이터에 너무 적합화된 모형이기 때문에
09:27 : 그래서 새로운 정보가 들어왔을 때는 잘 분류를 못 한다. 라고 말씀을 드렸어요. 그래서 이런 과대적합의 발생 가능성이 있고요.
09:35 : 그리고 분류 경계선 부근에 자료값에 대해서 오차가 크다. 라고 합니다. 이런 식으로, 네모로 그렸을 때, 막 이렇게 점이 있었어요.
09:42 : 그었을 때 이 분류 경계선 부근의 자룟값에 대해서는 오차가 크게 나타납니다. 그리고 설명변수 간의 중요도를 판단하기 쉽지 않다.
09:52 : 이렇게 나타나고 단점 같은 경우는 크게 시험에 나타나지는 않는데, 장점 같은 경우는 시험에 나타날 수 있으니 반드시 기억을 하시기 바랍니다.
20:00 :
02:35 ~ 03:50
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 의사결정나무_3 ZBJ3SVitmiY
00:06 : 의사결정나무에 분석 단계는 크게 4가지 단계로 이루어집니다.
00:12 : 그림을 보시면 첫 번째 나무의 성장, 두 번째 가지치기, 세 번째 타당성 평가, 그다음에 네 번째 해석 및 예측 과정을 거쳐서
00:26 : 의사결정나무의 분석을 마무리할 수 있습니다.
00:29 : 그래서 성장, 가지치기, 타당성 평가, 해석 및 예측에 대해서 한번 알아보도록 하겠습니다.
00:37 : 가장 먼저 나오는 게 나무의 성장입니다. 나무의 성장 같은 경우는 분석의 목적과 자료구조에 따라서 적절한 분리규칙을 찾아서
00:52 : 나무를 성장시키는 과정에서 적절한 정지규칙을 만족하면 성장을 중단한다. 라고 적혀 있습니다.
01:01 : 가장 잘 분리한 규칙이 있을 거라고 했죠. 의사결정나무를 할 때, 이런 식으로 x와 동그라미가 있다고 합시다.
01:11 : 이렇게 겹쳐 있는데 이거를 가장 잘 분리하는 첫 번째 선을 찾아서 해당 특징을 가지고 가장 먼저 분리를 한다고 말씀을 드렸어요.
01:22 : 그래서 해당 규칙을 구한 다음에 나무가 이렇게 성장을 하게 됩니다. 그리고 또 다른 규칙을 찾고, 이런 식으로 계속 진행을 하는데
01:34 : 이 나무 규칙이 계속해서 생성이 되다 보면 불필요한 규칙까지 생성이 될 수 있어요. 그래서 어느 수준에서 멈춰야 된다. 라고 하는 정지규칙도 정해 주어야 됩니다.
01:47 : 그래서 정지규칙이 만약에 세 번째 나무까지만 하겠다. 첫 번째, 두 번째, 세 번째 라인까지만 하겠다.
01:55 : 이것까지만 하겠다고 지정을 해주고 이렇게 생성되는 나무를 확인을 먼저 할 거예요.
02:01 : 이렇게 나무가 성장을 마치게 된다면 가지치기라는 과정을 거칠 겁니다.
02:07 : 가지치기 같은 경우는 오차를 크게 할 위험이 높거나, 부적절한 추론규칙을 가지고 있는 경우. 가지 또는 불필요한 가지를 제거하는 단계예요.
02:23 : 이렇게 나무가 생성, 성장을 했는데요. 이 중에서 불필요한 규칙이 있을 수도 있어요.
02:30 : 이게 정확도라든지 이런 것들이 떨어진다든지, 아니면 전문가가 판단했을 때, 필요하지 않은 가지라고 판단을 할 수 있습니다.
02:38 : 그런 가지는 끊어서 사용하지 않겠다. 하는 이런 것들을 통해서 가지치기를 진행을 합니다.
02:46 : 그러고 나서 완성된 의사결정나무 모형을 이제 평가를 하는 거예요.
02:53 : 앞에서 1절에서 데이터마이닝 개요에서 배웠던 이익도표라든지 아니면 위험도표 혹은 테스트 데이터에 의한 교차 타당성을 이용해서
03:06 : 의사결정나무의 성능을 한번 평가를 합니다.
03:10 : 이렇게 평가를 마치게 되면 이 구축된 의사결정나무를 해석하고, 예측 모형을 선정한 후에, 예측에 적용한다.
03:20 : 그래서 총 4가지의 단계를 거쳐서 의사결정나무에 분석을 할 수 있다. 라는 점 기억을 하시기 바랍니다.
03:31 : 그러면 이 의사결정나무에 대해서 가장 먼저 진행되는 성장에 대해서 간단하게 한번 말씀을 드리면 이렇게 의사결정나무는 네모 박스에
03:45 : 동그라미와 빈 동그라미가 이렇게 있을 거예요. 이거를 가장 잘 분리하는 분리규칙을 먼저 찾는다고 말씀드렸어요.
03:54 : 찾고 또 찾고, 또 찾고 이런 식으로 하는데 이거를 똑같은 공간에서 반복적으로 진행이 되고 있습니다. 그래서 반복적 분할, 재귀적 분할이라고 합니다.
04:06 : 그래서 여기 목적을 한번 보시면 모든 공간을 직사각형으로 나누어서 각 직사각형이 가능한 순수하게, 혹은 동질적이 되도록 하는 것이 목적이에요.
04:21 : 그래서 동그라미 점만 있으면 동그라미 점만 있어야 되고, 빈 점만 있어야 되면 빈 점만 있는 그런 사각형을 찾는 그런 분할을
04:30 : 할 수 있는 기준을 찾는 게 의사결정나무에서 핵심이라고 할 수 있습니다.
04:35 : 그래서 여기서 말하는 순수의 의미는 최종 직사각형에 포함된 변수가 모두 동일한 집단에 속하는 것을 순수다. 라고 표현을 할 수 있습니다.
04:49 : 이런 식의 기준을 가지고 분할을 진행을 하고, 그다음에 분리규칙을 정한 다음에, 그다음에 거기에 맞는 나무를 계속 성장을 해 나갈 것입니다.
04:59 : 그래서 이런 분리 기준을 잡을 수 있는데, 이거는 두 가지로 분리해서 잡아 볼 수가 있을 거예요.
05:06 : 첫 번째는 이산형 목표변수, 두 번째는 연속형 목표변수다. 라고 설명이 되어 있는데
05:12 : 이상형 목표변수는 그냥 분류나무라고 생각을 하시면 돼요. 0이다, 1이다, 2다, 남자다, 여자다, 씨름부다, 농구부다. 이런 식으로 이산형 목표 같은 경우는
05:27 : 범주형 변수에 대해서 분류를 할 때 사용을 하거나 연속형 목표변수 같은 경우는 주로 회귀나무에서 사용하는 거죠.
05:36 : 예측값을 정확하게 구하기 위해서 사용하는 것을 목표변수에 따라서 볼 수 있어요. 그래서 이런 것들을 기준으로 하는 기준값이 각각 존재합니다.
05:46 : 그래서 이산형 목표변수 같은 경우는 카이제곱 통계량의 p 값, 지니 지수, 엔트로피 지수로 이런 것들을 확인을 할 수가 있고,
05:57 : 연속형 목표변수의 경우에는 분산분석에서의 F 통계량, 그다음에 분산의 감소량 이런 걸로 확인을 할 수가 있다. 라고 적혀 있어요.
06:07 : 시험에서 이상형 목표의 변수에 대해서 분리 기준에 대한 기준값을 물어보거나 목표형 변수에 대해서 기준값에 대해서 이런 것들을 물어보는
06:16 : 문제가 나올 수 있으니, 이거는 반드시 기억을 하시고 넘어가셔야 됩니다.
06:23 : p 값 같은 경우는 분리 기준이 어떻게 되냐. 지니 지수도 어떻게 되냐. 이걸 한번 확인해 보면 카이제곱 통계량의 p 값은.
06:32 : p 값이 가장 작은 예측 변수에요.
06:37 : 그리고 그때 최적 분리에 의해서 자식 마디가 생성이 될 거예요. 그래서 만약에 씨름부를 나누는데 키가 190일 때 최적이다.
06:49 : 하면 이게 최적의 분리 기준이 되는 겁니다. 이때 p 값을 구해서 확인을 해보는 거예요.
06:54 : 그리고 지니 지수 같은 경우는 지니 지수를 감소시켜 주는 예측 변수에요.
07:01 : 그리고 그때의 최적분리에 의해서 자식 마디가 선택이 되고 형성이 될 거예요.
07:07 : 엔트로프 지수도 마찬가지로 엔드로퀴지수는 가장 작은 예측변수, 그리고 이때의 최적 분리에 의해 자식 마디를 형성을 한다. 라는 점 기억을 하시기 바랍니다.
07:20 : 그래서 이산형 목표변수 같은 경우는 기준값이 다 낮을 때, 아니면 많이 감소시켜 줄 때. 그때의 최적 분리를 기준으로 삼고
07:29 : 자식 마디를 형성한다. 라고 기억을 하시기 바랍니다.
07:35 : 연속형 목표변수의 경우에는 분산분석의 F 통계량 값은 p 값이 가장 작은 예측 변수와 그때의 최적 분리에 의해서 자식 마디가 생성이 되고요.
07:47 : 분산 감소량의 경우에도 분산 감소량이 최대화되는 기준. 분산 감소량이 최대화된다. 라고 말을 해요.
07:58 : 그래서 분산이 적으면 적을수록 같이 모여 있다고 판단을 할 수가 있을 거예요.
08:01 : 그래서 감소량이 가장 많으면 그거에 대해서 기준을 최적분리로 하고 자식 마디를 형성한다.
08:10 : 그래서 이런 자세한 내용은 암기만 하시고 이런 것들이 있다. 라는 것도 반드시 기억을 하시기 바랍니다.
20:00 :
02:53 ~ 03:20
1
2
3
검수 상태 : 불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 : 추가