남은 문제 : 36
문제 1377
k-평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해주어야 한다. 다음 중 군집수를 정하는 데 활용할 수 있는 그래프로 가장 적절한 것은 무엇인가?
보기
1.ROC 그래프
2.집단 내 제곱합 그래프
3.덴드로그램
4.향상도 곡선
정답
2
해시
태그
lADsP 완전 정복l 계층적 군집방법_2
s7svQxDjvEE
00:05
: 최장이라든지, 평균연결법에 대해서도 한번 알아보도록 하겠습니다.
00:10
: 전 시간에 한 걸 리마인드 한다고 생각을 하시면 최장연결법을 한번 풀어볼게요.
00:16
: 그래서 제일 처음에 나타나는 a부터 e라는 점에 대해서 x1과 x2에 대한 점이 이렇게 나타난다. 라고 말씀드렸고요.
00:24
: 그래서 오른쪽과 같은 좌표평면에 표시를 하면 a부터 e라는 점이 표시가 되고, 가장 먼저
00:31
: a부터 e라는 점들의 각각에 대한 거리를 구하면 아래와 같은 거리행렬이 나온다고 말씀을 드렸어요.
00:38
: 이렇게 거리행렬이 나오면 a와 b의 거리, 그다음에 a와 c, a와 d, a와 e 간의 거리를 이런 식으로 다 구하고.
00:47
: b, c, d 이렇게 먼저 다 구할 수 있을 거예요. 그래서 가장 먼저 첫 번째는, 이 점들 사이에 가장 가까운 점을 먼저 선택을 해서
00:56
: 하나의 군집으로 먼저 묶는다고 말씀을 드렸어요.
01:00
: 그래서 d와 e를 하나의 군집으로 먼저 묶는다. 그래서 가장 가까운 5라는 값이기 때문에 d와 e가 묶이게 돼서
01:07
: 그다음 두 개가 하나의 군집이 되었을 때 거리행렬을 다시 구해봅니다. 그랬을 때 a와 b, a와 c 그다음에 a와 d, e 간의 거리를 구하는데
01:18
: a와 b, a와 c 같은 경우는 이미 구해져 있습니다.
01:23
: 구해져 있어서 문제가 없는데 d, e라는 점이 하나의 군집으로 묶이면서 거리를 구할 때 애로사항이 생겼죠.
01:31
: 그래서 a와 d라든지, 아니면 a와 e로 거리를 구한다든지, 아니면 2개 평균으로 구한다든지. 이 방법을 바로 최단이냐, 최장이냐, 평균이냐. 이렇게 설명을 드렸습니다.
01:45
: 이번에는 최장거리법이기 때문에 가장 먼 e라는 점과의 거리를 구할 거예요.
01:52
: 그래서 e라는 점과의 거리를 구하면 25라는 값이 나올 겁니다. 그래서 b와 c를 구했을 때는 29라는 값이 나오고
01:59
: 그다음에 b와 d인데 최장이기 때문에 b와 d의 최장은 e와의 점이 최장입니다.
02:09
: 그래서 9라는 값이 나오고요. 그다음에 c와 d, e의 최장거리는 d와 c 이렇게 봤을 때 e와의 거리가 최장이기 때문에 26이라는 값이 나올 거예요.
02:22
: 그래서 이 중에서도 제일 가까운 거리에 있는 데이터가 하나의 군집으로 묶일 거예요.
02:28
: 그래서 보시면 b라는 점이 묶여서 이렇게 또 하나의 군집이 될 거예요.
02:33
: 그래서 각각에 대해서 거리를 구했을 때 최종적으로 a, c가 하나로 묶이고 b, d가 하나로 묶이는 이런 군집이 생성이 될 겁니다.
02:43
: 순서대로 보시면 d, e가 하나로 묶이고요. 그다음에 b, d, e가 하나로 묶이고 a, c가 하나로 묶여서 이런 식으로
02:52
: 군집이 2개가 형성이 된다. 라는 점을 볼 수 있다. 라고 확인을 하실 수 있을 거예요.
02:58
: 평균 같은 경우는 아래의 거리가 처음에는 5라는 값이 선정이 되겠죠. 그래서 똑같이 d와 e가 하나의 군집이 되고요. 그다음에
03:09
: 또 a부터 d, e까지의 거리를 한번 구해 볼 건데 a와 b, c까지는 똑같은 값이 나오지만, d, e에 대해서 이 중간값을 선정한다고 말씀드렸습니다.
03:21
: 그러면 d, e. d와 e에 대한 평균값을 구하겠죠.
03:26
: 그러면 35의 평균 10+25의 나누기 2는 17.5가 나올 겁니다. 그래서 거리가 17.5가 되고, 여기 b는 8.5, 17.5 이런 식으로 평균값에 대해서 거리를 구할 수 있을 거예요.
03:41
: 그래서 이 중에서 가장 작은 8.5를 선택을 하고 또 13을 선택하고 이런 식으로 거리 행렬을 계속 구해서
03:49
: 앞에서 나온 최장연결법과는 또 다른 결과가 나옵니다.
03:53
: d와 e가 하나의 군집으로 되고요. 그다음에 b, d, e. 그다음에 또 a, c 같은데 아마 옆에 나오는 헤이트 거릿값이 좀 다르게 나타난다. 라는 점 기억을 하시기 바랍니다.
04:06
: 앞에서 설명해 드렸던, 이 세 가지 방법 같은 경우는 이런 식으로 직접 구할 수 있다. 라는 점 반드시 기억을 해주시고요.
04:14
: 제가 한번 말씀드렸는데 와드연결법은 개념을 묻는 문제가 나온다고 했어요. 그래서 군집 내의 편차들의 제곱합을 고려한 방법이 바로 와드연결법이다.
04:26
: 그래서 군집 간의 정보의 손실을 최소화하기 위해서 군집화를 진행하는 방법은 와드연결법이다. 라는 개념 반드시 기억을 하시기 바랍니다.
04:37
: 이렇게 하면 계층적 군집분석에 대해서는 간단하게 한번 알아보고 시험에 나올 만한 문제도 한번 확인을 해봤습니다.
20:00
:
03:29
~
05:48
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 계층적 군집방법_1
nKGYaPWBhyA
00:05
: 거리를 이렇게 구하는 방법에 대해서 알아봤는데 앞에서 군집의 개수나, 구조에 대한 가정이 없이 이 부분을 설명을 할 때
00:15
: 계층적 군집이 있다. 아니면 비계층적이 있다. 라고 말씀을 드렸을 거예요.
00:22
: 그러면 계층적 군집분석 방법에 대해서 먼저 알아보고, 비계층 군집분석 방법도 한번 알아보도록 하겠습니다.
00:32
: 계층적 군집분석 방법 같은 경우는 n개의 군집으로 시작해서 점차 군집의 개수를 줄여나가는 방법이다. 라고 적혀 있습니다.
00:41
: 그래서 hierarchical clustering이다. 라고 표현을 해요. 그래서 가장 가까운 것들끼리 먼저 구하고요. 군집을.
00:48
: 그리고 그다음에 가까운 것들 군집, 그다음 가까운 군집. 이런 식으로 군집의 개수를 점차 줄여나가는 방법이다. 라고 합니다.
00:56
: 그래서 n개의 군집은 n이 거의 확정이 처음에 안 돼요. 그런데 비계층 같은 경우는 n의 개수를 정해주고 시작을 한다. 라는 점 차이점이 있다. 라는 거 기억을 해주시면 돼요.
01:09
: 그래서 이 방법에 대해서는 최단연결법부터 와드연결법까지 있습니다.
01:15
: 최단연결법, 최장연결법, 평균연결법, 와드연결법 이거에 대한 개념은 반드시 암기를 하고 계시고.
01:24
: 특히 와드연결법 같은 경우는 개념을 묻는 문제가 시험에 나온 적이 많기 때문에 반드시 어떤 방법이다. 라는 점을 기억을 하시기 바랍니다.
01:35
: 그러면 최단연결법부터 최장, 평균연결법까지는 이런 것들은 개념보다는 시험 문제에서 직접 구하거나 이런 것들이 나올 수 있는데
01:46
: 와드연결법은 구하는 건 직접 시험에 안 나와요. 그래서 이 세 가지 방법에 대해서는 한번 직접 구해 보는 시간을 가질 수 있도록 하겠습니다.
01:54
: 개념이 이렇게 나와 있는데 그림을 보면서 한번 설명을 드리면 쉽게 이해를 하실 거예요.
02:00
: 최단연결법의 예시를 한번 보고 개념을 설명을 드리겠습니다. 보시면 제일 첫 번째 왼쪽 위에 그림을 보시면
02:09
: 이렇게 a부터 e라는 점에 대해서 좌푯값이 이렇게 x1과 x2에 대해서 값이 주어져 있습니다.
02:17
: 그래서 1 콤마 4, 2 콤마 1, 4 콤마 6, 4 콤마 3, 5 콤마 1 이런 값들이 주어져 있고요.
02:24
: 그래서 그거를 좌표평면에 나타냈을 때는 이런 식으로 나타낸다. 라고 이해하실 수 있을 거예요.
02:31
: 여기까지 먼저 보시고 그러면 이제 점들끼리의 거리를 한번 계산을 해 볼게요.
02:39
: 그래서 a와 b 간의 거리, a와 c 간의 거리, a와 d 간의 거리, a와 e 간의 거리를 한번 구해보면
02:47
: 1-2 이거는 유클리드로 한번 구해볼게요. 거리로 한번 구했을 때 1-2는 1이 되겠죠.
02:54
: 4-1은 3이 되는데 제곱값을 했을 때 9가 되기 때문에 10이 될 겁니다. 그냥 10이 아니라 루트 10이겠죠. 그런데 밑에 보시면
03:05
: a와 b 간의 거리가 10으로 나타나 있어요. 여기서는 보기 편하게 보기가 힘들었어요. 이걸 루트를 제거한 표현으로 한다는 점 기억을 해주시기 바랍니다.
03:17
: a와 b 간의 거리, 그다음에 a와 c, a와 d, a와 e 간의 거리를 이런 식으로 다 구해보면 루트를 제외하고 이런 식으로 값이 나올 거고요.
03:29
: 그러면은 b와 c, b와 d, b와 e 각각에 대해서 이렇게 거리를 한번 다 구해 볼 수 있을 거예요.
03:38
: 그러면 아래처럼 이렇게 거리 행렬이 나타나게 될 겁니다. 이렇게 거리 행렬이 나오게 되면
03:49
: 첫 번째는 이 점들 사이에서 가장 가까운 점을 선택을 해요.
03:55
: 점들끼리 봤을 때 제일 가까운 군집을 하나 묶어줍니다. 그래서 봤을 때 제일 작은 값인 5라는 값이 있어요.
04:03
: 그래서 d와 e를 하나의 군집으로 묶어줍니다.
04:07
: 그래서 하나로 묶게 되고 이게 하나의 그룹이 되면, 이제 다시 다음 거리의 행렬을 한번 구하게 돼요.
04:15
: 그래서 그다음으로 가까운 거리를 구하기 위해서 다시 거리 행렬을 구할 건데
04:22
: a와 d, e에 대한 거리를 한번 구해 볼게요
04:27
: a와 d, e 거리를 구할 건데 a와 d, e에 대한 거리. 이거를 구하는데 이전에 a와 b라든지 a와 c 같은 경우는 거리를 다 구해놨죠.
04:40
: 그래서 그대로 연결이 되는데 a와 d, e의 거리를 구할 건데 a와 가장 가까운 d로 구할 거냐
04:48
: 아니면 a와 가장 먼 e로 구할 거냐, 아니면 두 점의 평균값으로 구할 거냐에 따라서
04:55
: 최단연결법을 할 거냐, 최장연결법을 할 거냐, 평균연결법을 할 거냐. 이런 식으로 접근을 하는 게
05:05
: 계층적 군집방법이다. 라고 이해를 하시면 돼요. 그래서 보시면 최단연결법은 거리가 가장 가까운 데이터를 묶어서 군집을 형성한다.
05:16
: 그리고 군집과 군집 간의 또는 데이터와의 거리를 계산 시 최단 거리를 계산하는 것이 바로 최단연결법이고요.
05:27
: 군집과 군집 또는 데이터와의 거리를 계산할 때 최장거리로 계산하는 것은 최장.
05:33
: 평균 거리로 연결하는 것은 평균연결법이다. 라고 이해를 하시면 됩니다.
05:42
: 다음, 이 그림 보시면 최단연결법이기 때문에 a라는 값과 가장 가까운 값인 b. 이거를 선택해서
05:54
: a라는 값과 가까운 게 아니라 b라는 값과 d, e라는 값이 가장 가깝기 때문에 b, d, e를 하나의 군집으로 또 묶게 됩니다.
06:04
: a와 c에 대해서 거리를 구하면 또 이런 거리행렬이 생기고요. 그래서 그중에서 또 가까운 9를 선택을 해서
06:13
: c와 b, d, e를 하나의 군집으로 묶고 마지막으로 a와 c, b, d, e를 하나의 군집으로 묶으면서 마무리를 할 거예요.
06:24
: 이 덴드로그램을 한번 보면 이렇게 군집이 거리행렬을 통해서 이루어진 것을 한눈에 확인을 하실 수가 있을 거예요.
06:32
: 자 가장 먼저 d와 e라는 값이 하나의 군집이 됐다는 것을 확인할 수 있고, 그다음에 b라는 값이 하나의 군집이 되었죠.
06:44
: 그리고 c라는 값과 하나의 군집이 되었습니다.
06:47
: 그래서 여기 c. 그리고 마지막으로 a와 하나의 군집이 되었어요.
06:52
: 이런 식으로 전체가 하나의 군집이 되는데, 처음에 가까웠던 d, e가 먼저, 그다음에 b, c, a 이런 식으로 hierarchical 하게 계층적으로 표현을 할 거예요.
07:06
: 그래서 계층적 군집분석을 하고 여기서 시험 문제에 나오는 게, 이 덴드로그램이라고 표현하는 이 그림에서 군집을 두 개로 나누겠다.
07:16
: 두 개로 나누겠다면 이 선을 기준으로 두 개로 나누면 a라는 집단 하나 c, b, d, e라는 집단 하나. 아니면 3개
07:25
: a라는 집단 하나, c라는 집단 하나, b, d, e가 하나 이런 식으로 군집을 나눌 수 있을 거예요.
07:32
: 그래서 이거는 2군집, 그리고 3군집, 4군집으로 위해서는 이렇게 나누면 4군집. 이런 식으로 군집으로 나누는 것을 시각적으로
07:42
: 볼 수 있는 게 덴드로그램이란 것도 있다. 라는 점 기억을 하시기 바랍니다
20:00
:
00:05
~
02:24
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 비계층적 군집방법
_dIxTLolbv4
00:05
: 비계층적 군집분석에 대한 개념은 n개의 개체를 g개 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화된 군집을 형성하는 것이다. 라고 적혀 있습니다.
00:19
: n개의 개체에 대해서 g개의 군집을 먼저 g개가, 몇 개가 될 거다. 라고 미리 선정을 해 줘야 돼요.
00:25
: g개 군집을 나눌 수 있는 방법이다.
00:28
: 그중에서 가장 많이 사용되는 방법이 K-평균 군집분석이란 게 있습니다.
00:35
: k-means clustering이라고도 하는데, k-means clustering에 대해서 그림을 보면서 이해해 볼게요.
00:42
: 그림을 보시면 왼쪽부터 시작해서 1번, 2번, 3번, 4번, 5번, 6번 순으로 그래프가 변화되는 것을 보실 수 있을 거예요.
00:56
: 가장 먼저 x와 y에 대해서 좌표의 데이터를 뿌렸습니다.
01:03
: 뿌렸는데, 하나의 중점을 던져주고, 그 중점 근처에 있는 값들을 같은 군집이다라고 표시를 할 거예요.
01:12
: 이쪽에 중점, 이쪽에 중점, 이쪽에 중점을 두고, 그 중점과 가까운 데이터들에 대해서 같은 군집으로 묶었을 때,
01:20
: 처음에는 이런 식으로 데이터가 군집이 있었는데, 점점 반복했을 때는 중점의 거리가 멀어질 거예요.
01:32
: 편차의 오차 제곱 합을 최소화해야 되기 때문에 이 중점이 점점 이동을 할 겁니다.
01:40
: 여기서 여기로 이동했고요. 이쪽으로 이동을 했습니다.
01:44
: 그랬을 때 다시 군집에 대해서 값들이 바뀌게 될 거예요.
01:51
: 그리고 또 한 번 진행을 했을 때도 중점이 내려옵니다. 이거는 그대로 있을 거예요.
01:59
: 그랬을 때 다시 군집의 개수가 바뀔 겁니다.
02:04
: 네 번째, 다섯 번째, 여섯 번째까지 반복을 하니까, 첫 번째보다 안정적으로 군집들이 잘 분리가 되어지는 것을 확인 할 수 있고,
02:17
: 중점값들이 점점 이동을 할 거예요. 반복에 따라서 중점이 계속 바뀌면서 군집도 바뀌게 될 거예요.
02:26
: 이 방법을 k-means clustering이라고 표현을 합니다.
02:30
: K-평균 군집 같은 경우는 하는 방법이 어떻게 되느냐, 원하는 군집의 개수를 먼저 정해줘야 돼요.
02:39
: 그리고 초깃값, 어디로 초기 중점을 둘 것이냐. 라고 정한 다음에 시드 중심으로 군집을 형성합니다.
02:48
: 시드값을 중심으로 처음에 군집을 형성을 할 거예요.
02:53
: 그리고 각 데이터를 거리가 가장 가까운 시드가 있는 군집으로 분류를 하고요. 각 군집의 시드를 다시 계산합니다.
03:03
: 오차가 가장 작아질 수 있도록 최적의 중점을 찾아갈 겁니다.
03:08
: 거기에 맞는 값들에 대해서 다시 군집을 하고, 이런 식으로 반복을 할 거예요. 시드값을 다시 계산을 하고요.
03:16
: 모든 개체가 군집으로 할당될 때까지 위의 과정들을 반복한다. 라고 합니다.
03:24
: 첫 번째 한 번 군집이 됐던 게, 또 다른 값으로 군집이 바뀔 수도 있고, 이런 것들이 K-평균 군집의 특징이다, 기억을 하시기 바랍니다.
03:36
: 비계층적 군집 분석, k-means에 대해서 한 번 봤는데, 이거에 대한 장점과 단점이 있을 거예요.
03:45
: 위에는 장점이 아니라 단점입니다.
03:50
: 장점을 보시면 주어진 데이터의 내부 구조에 대한 사전 정보 없이 의미 있는 자료구조를 찾을 수 있다.
03:59
: 이거는 비계층적 군집, 군집 분석에 모든 장점에 포함이 될 수도 있는 말이에요.
04:05
: 사전 정보 없이, 목적 없이 클러스터링을 할 수 있다. 그래서 의미 있는 자료구조를 바로 찾을 수가 있을 거예요.
04:14
: 다양한 형태의 데이터에 적용이 가능하다. 라는 장점도 있습니다.
04:18
: 분석 방법 적용이 용이하다. 라는 장점, 이런 장점에 대해서는 시험 문제에서 물어볼 수 있다. 라는 점 반드시 기억을 하시고요.
04:28
: 비계층적 군집 분석에 대해서 단점도 있어요.
04:32
: 단점이 어떤 것들이 있냐. 가중치와 거리 정의가 어려워요.
04:38
: 가중치 조정을 해야 되는데 가중치를 선정하는 것이나, 아니면 거리를 정의하는 것 자체가 어렵고요.
04:44
: 초기 군집 수를 결정하기가 어렵습니다.
04:48
: 초기 군집 수를 결정을 해야 되는데, 최고의 군집수를 선정을 해야 되는데 그게 어려워요.
04:55
: R 프로그램에서는 nbcluster라는 것을 활용해서 nbcluast 패키지를 활용을 해서 초기 군집 값을 결정하고,
05:06
: 그 군집으로 k-means라든지 k-medoids 이런 방법들을 활용한다. 라고 기억하시면 돼요.
05:13
: 사전에 주어진 목적이 없어 해석이 어려울 수도 있습니다.
05:18
: 군집은 잡혔는데 그 군집에 대한 특징을 확인 못 할 수도 있어요. 그런 단점이 있다고 기억해 주시기를 바랍니다.
05:28
: k-means clustering을 하면서 초기 중심값 설정이 얼만큼 중요한지에 대해서 확인해 보실 수가 있을 거예요.
05:37
: 초기 설정값이 이렇게 주어졌는데, 결국에는 다시 또 이동을 할 거예요.
05:49
: 두 번째, 세 번째, 네 번째, 다섯 번째까지 왔는데, 두 번째에서 데이터를 이런 식으로 중점을 줬어요.
05:58
: 수직으로 데이터를 줬는데, 보통 x라든지, y라는 값이 수평이라든지 수직으로 같은 선상 위에 중점을 주게 되면,
06:10
: 그 근처에서 놀기 때문에 중점이 정확하게 안 잡힐 수도 있어요.
06:16
: 이런 식으로 잡았을 때는 안으로 이동을 해서 겹치게 돼요.
06:21
: 그리고 이것은 이 근처에 중점 근처에 값들이 없습니다.
06:25
: 세 번째는 이 값은 거의 그대로 있고요. 이 값 그대로 가기 때문에. 근데 위에 두 가지 값 같은 경우는 계속 바뀌어요. 중점이.
06:34
: 그래서 이 군집이 정확하게 잘되지 않고 계속해서 바뀔 거다.
06:38
: 이 밑엣것은 문제가 없겠지만 위의 두 개 값은 계속 바뀔 수 있다.
06:43
: 그렇기 때문에 초기 중심값 같은 경우는, 이렇게 두기보다는 앞서 설명을 해드렸던 이런 식으로,
06:52
: 거리를 두고, 오밀조밀하게 모이는 게 아니라, 일자로, 세로나 가로로 두는 게 아니라,
07:00
: 비슷한 위치지만 이런 식으로 x, y 값이 다르게 배치를 하는 것이 낫다. 라는 점 기억을 해주시면 돼요.
07:09
: 비계층적 군집분석 중에서 k-means 중점에 대한 평균값을 계속 구해나가는 k-means clustering을 진행을 할 수 있고,
07:19
: 초기 중심 값 설정이 어려우시면 k-medoids, 중간값을 통해서도 할 수 있다. 아니면 다른 방법 이용을 할 수 있다. 라는 점 기억을 해주시면 됩니다.
07:30
: k-means 같은 경우 장점이라든지, 단점 기억을 하시고요.
07:36
: 이 부분에 대해서 나올 만한 시험 문제가, 방법, 앞서 나왔던 방법, 이런 것들도 시험 문제 나올 수 있으니까 반드시 기억을 해 주시기 바랍니다.
07:51
: 비계층적 군집분석의 첫 번째 k-means clustering에 대해서 한번 개념을 알아봤고요.
20:00
:
00:05
~
02:24
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음