남은 문제 : 36

문제 1377

k-평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해주어야 한다. 다음 중 군집수를 정하는 데 활용할 수 있는 그래프로 가장 적절한 것은 무엇인가?

보기

1.ROC 그래프
2.집단 내 제곱합 그래프
3.덴드로그램
4.향상도 곡선

정답

2

해시
태그

lADsP 완전 정복l 계층적 군집방법_2 s7svQxDjvEE	00:05 : 최장이라든지, 평균연결법에 대해서도 한번 알아보도록 하겠습니다. 00:10 : 전 시간에 한 걸 리마인드 한다고 생각을 하시면 최장연결법을 한번 풀어볼게요. 00:16 : 그래서 제일 처음에 나타나는 a부터 e라는 점에 대해서 x1과 x2에 대한 점이 이렇게 나타난다. 라고 말씀드렸고요. 00:24 : 그래서 오른쪽과 같은 좌표평면에 표시를 하면 a부터 e라는 점이 표시가 되고, 가장 먼저 00:31 : a부터 e라는 점들의 각각에 대한 거리를 구하면 아래와 같은 거리행렬이 나온다고 말씀을 드렸어요. 00:38 : 이렇게 거리행렬이 나오면 a와 b의 거리, 그다음에 a와 c, a와 d, a와 e 간의 거리를 이런 식으로 다 구하고. 00:47 : b, c, d 이렇게 먼저 다 구할 수 있을 거예요. 그래서 가장 먼저 첫 번째는, 이 점들 사이에 가장 가까운 점을 먼저 선택을 해서 00:56 : 하나의 군집으로 먼저 묶는다고 말씀을 드렸어요. 01:00 : 그래서 d와 e를 하나의 군집으로 먼저 묶는다. 그래서 가장 가까운 5라는 값이기 때문에 d와 e가 묶이게 돼서 01:07 : 그다음 두 개가 하나의 군집이 되었을 때 거리행렬을 다시 구해봅니다. 그랬을 때 a와 b, a와 c 그다음에 a와 d, e 간의 거리를 구하는데 01:18 : a와 b, a와 c 같은 경우는 이미 구해져 있습니다. 01:23 : 구해져 있어서 문제가 없는데 d, e라는 점이 하나의 군집으로 묶이면서 거리를 구할 때 애로사항이 생겼죠. 01:31 : 그래서 a와 d라든지, 아니면 a와 e로 거리를 구한다든지, 아니면 2개 평균으로 구한다든지. 이 방법을 바로 최단이냐, 최장이냐, 평균이냐. 이렇게 설명을 드렸습니다. 01:45 : 이번에는 최장거리법이기 때문에 가장 먼 e라는 점과의 거리를 구할 거예요. 01:52 : 그래서 e라는 점과의 거리를 구하면 25라는 값이 나올 겁니다. 그래서 b와 c를 구했을 때는 29라는 값이 나오고 01:59 : 그다음에 b와 d인데 최장이기 때문에 b와 d의 최장은 e와의 점이 최장입니다. 02:09 : 그래서 9라는 값이 나오고요. 그다음에 c와 d, e의 최장거리는 d와 c 이렇게 봤을 때 e와의 거리가 최장이기 때문에 26이라는 값이 나올 거예요. 02:22 : 그래서 이 중에서도 제일 가까운 거리에 있는 데이터가 하나의 군집으로 묶일 거예요. 02:28 : 그래서 보시면 b라는 점이 묶여서 이렇게 또 하나의 군집이 될 거예요. 02:33 : 그래서 각각에 대해서 거리를 구했을 때 최종적으로 a, c가 하나로 묶이고 b, d가 하나로 묶이는 이런 군집이 생성이 될 겁니다. 02:43 : 순서대로 보시면 d, e가 하나로 묶이고요. 그다음에 b, d, e가 하나로 묶이고 a, c가 하나로 묶여서 이런 식으로 02:52 : 군집이 2개가 형성이 된다. 라는 점을 볼 수 있다. 라고 확인을 하실 수 있을 거예요. 02:58 : 평균 같은 경우는 아래의 거리가 처음에는 5라는 값이 선정이 되겠죠. 그래서 똑같이 d와 e가 하나의 군집이 되고요. 그다음에 03:09 : 또 a부터 d, e까지의 거리를 한번 구해 볼 건데 a와 b, c까지는 똑같은 값이 나오지만, d, e에 대해서 이 중간값을 선정한다고 말씀드렸습니다. 03:21 : 그러면 d, e. d와 e에 대한 평균값을 구하겠죠. 03:26 : 그러면 35의 평균 10+25의 나누기 2는 17.5가 나올 겁니다. 그래서 거리가 17.5가 되고, 여기 b는 8.5, 17.5 이런 식으로 평균값에 대해서 거리를 구할 수 있을 거예요. 03:41 : 그래서 이 중에서 가장 작은 8.5를 선택을 하고 또 13을 선택하고 이런 식으로 거리 행렬을 계속 구해서 03:49 : 앞에서 나온 최장연결법과는 또 다른 결과가 나옵니다. 03:53 : d와 e가 하나의 군집으로 되고요. 그다음에 b, d, e. 그다음에 또 a, c 같은데 아마 옆에 나오는 헤이트 거릿값이 좀 다르게 나타난다. 라는 점 기억을 하시기 바랍니다. 04:06 : 앞에서 설명해 드렸던, 이 세 가지 방법 같은 경우는 이런 식으로 직접 구할 수 있다. 라는 점 반드시 기억을 해주시고요. 04:14 : 제가 한번 말씀드렸는데 와드연결법은 개념을 묻는 문제가 나온다고 했어요. 그래서 군집 내의 편차들의 제곱합을 고려한 방법이 바로 와드연결법이다. 04:26 : 그래서 군집 간의 정보의 손실을 최소화하기 위해서 군집화를 진행하는 방법은 와드연결법이다. 라는 개념 반드시 기억을 하시기 바랍니다. 04:37 : 이렇게 하면 계층적 군집분석에 대해서는 간단하게 한번 알아보고 시험에 나올 만한 문제도 한번 확인을 해봤습니다. 20:00 :	03:29 ~ 05:48		검수 상태 : 불통
lADsP 완전 정복l 계층적 군집방법_1 nKGYaPWBhyA	00:05 : 거리를 이렇게 구하는 방법에 대해서 알아봤는데 앞에서 군집의 개수나, 구조에 대한 가정이 없이 이 부분을 설명을 할 때 00:15 : 계층적 군집이 있다. 아니면 비계층적이 있다. 라고 말씀을 드렸을 거예요. 00:22 : 그러면 계층적 군집분석 방법에 대해서 먼저 알아보고, 비계층 군집분석 방법도 한번 알아보도록 하겠습니다. 00:32 : 계층적 군집분석 방법 같은 경우는 n개의 군집으로 시작해서 점차 군집의 개수를 줄여나가는 방법이다. 라고 적혀 있습니다. 00:41 : 그래서 hierarchical clustering이다. 라고 표현을 해요. 그래서 가장 가까운 것들끼리 먼저 구하고요. 군집을. 00:48 : 그리고 그다음에 가까운 것들 군집, 그다음 가까운 군집. 이런 식으로 군집의 개수를 점차 줄여나가는 방법이다. 라고 합니다. 00:56 : 그래서 n개의 군집은 n이 거의 확정이 처음에 안 돼요. 그런데 비계층 같은 경우는 n의 개수를 정해주고 시작을 한다. 라는 점 차이점이 있다. 라는 거 기억을 해주시면 돼요. 01:09 : 그래서 이 방법에 대해서는 최단연결법부터 와드연결법까지 있습니다. 01:15 : 최단연결법, 최장연결법, 평균연결법, 와드연결법 이거에 대한 개념은 반드시 암기를 하고 계시고. 01:24 : 특히 와드연결법 같은 경우는 개념을 묻는 문제가 시험에 나온 적이 많기 때문에 반드시 어떤 방법이다. 라는 점을 기억을 하시기 바랍니다. 01:35 : 그러면 최단연결법부터 최장, 평균연결법까지는 이런 것들은 개념보다는 시험 문제에서 직접 구하거나 이런 것들이 나올 수 있는데 01:46 : 와드연결법은 구하는 건 직접 시험에 안 나와요. 그래서 이 세 가지 방법에 대해서는 한번 직접 구해 보는 시간을 가질 수 있도록 하겠습니다. 01:54 : 개념이 이렇게 나와 있는데 그림을 보면서 한번 설명을 드리면 쉽게 이해를 하실 거예요. 02:00 : 최단연결법의 예시를 한번 보고 개념을 설명을 드리겠습니다. 보시면 제일 첫 번째 왼쪽 위에 그림을 보시면 02:09 : 이렇게 a부터 e라는 점에 대해서 좌푯값이 이렇게 x1과 x2에 대해서 값이 주어져 있습니다. 02:17 : 그래서 1 콤마 4, 2 콤마 1, 4 콤마 6, 4 콤마 3, 5 콤마 1 이런 값들이 주어져 있고요. 02:24 : 그래서 그거를 좌표평면에 나타냈을 때는 이런 식으로 나타낸다. 라고 이해하실 수 있을 거예요. 02:31 : 여기까지 먼저 보시고 그러면 이제 점들끼리의 거리를 한번 계산을 해 볼게요. 02:39 : 그래서 a와 b 간의 거리, a와 c 간의 거리, a와 d 간의 거리, a와 e 간의 거리를 한번 구해보면 02:47 : 1-2 이거는 유클리드로 한번 구해볼게요. 거리로 한번 구했을 때 1-2는 1이 되겠죠. 02:54 : 4-1은 3이 되는데 제곱값을 했을 때 9가 되기 때문에 10이 될 겁니다. 그냥 10이 아니라 루트 10이겠죠. 그런데 밑에 보시면 03:05 : a와 b 간의 거리가 10으로 나타나 있어요. 여기서는 보기 편하게 보기가 힘들었어요. 이걸 루트를 제거한 표현으로 한다는 점 기억을 해주시기 바랍니다. 03:17 : a와 b 간의 거리, 그다음에 a와 c, a와 d, a와 e 간의 거리를 이런 식으로 다 구해보면 루트를 제외하고 이런 식으로 값이 나올 거고요. 03:29 : 그러면은 b와 c, b와 d, b와 e 각각에 대해서 이렇게 거리를 한번 다 구해 볼 수 있을 거예요. 03:38 : 그러면 아래처럼 이렇게 거리 행렬이 나타나게 될 겁니다. 이렇게 거리 행렬이 나오게 되면 03:49 : 첫 번째는 이 점들 사이에서 가장 가까운 점을 선택을 해요. 03:55 : 점들끼리 봤을 때 제일 가까운 군집을 하나 묶어줍니다. 그래서 봤을 때 제일 작은 값인 5라는 값이 있어요. 04:03 : 그래서 d와 e를 하나의 군집으로 묶어줍니다. 04:07 : 그래서 하나로 묶게 되고 이게 하나의 그룹이 되면, 이제 다시 다음 거리의 행렬을 한번 구하게 돼요. 04:15 : 그래서 그다음으로 가까운 거리를 구하기 위해서 다시 거리 행렬을 구할 건데 04:22 : a와 d, e에 대한 거리를 한번 구해 볼게요 04:27 : a와 d, e 거리를 구할 건데 a와 d, e에 대한 거리. 이거를 구하는데 이전에 a와 b라든지 a와 c 같은 경우는 거리를 다 구해놨죠. 04:40 : 그래서 그대로 연결이 되는데 a와 d, e의 거리를 구할 건데 a와 가장 가까운 d로 구할 거냐 04:48 : 아니면 a와 가장 먼 e로 구할 거냐, 아니면 두 점의 평균값으로 구할 거냐에 따라서 04:55 : 최단연결법을 할 거냐, 최장연결법을 할 거냐, 평균연결법을 할 거냐. 이런 식으로 접근을 하는 게 05:05 : 계층적 군집방법이다. 라고 이해를 하시면 돼요. 그래서 보시면 최단연결법은 거리가 가장 가까운 데이터를 묶어서 군집을 형성한다. 05:16 : 그리고 군집과 군집 간의 또는 데이터와의 거리를 계산 시 최단 거리를 계산하는 것이 바로 최단연결법이고요. 05:27 : 군집과 군집 또는 데이터와의 거리를 계산할 때 최장거리로 계산하는 것은 최장. 05:33 : 평균 거리로 연결하는 것은 평균연결법이다. 라고 이해를 하시면 됩니다. 05:42 : 다음, 이 그림 보시면 최단연결법이기 때문에 a라는 값과 가장 가까운 값인 b. 이거를 선택해서 05:54 : a라는 값과 가까운 게 아니라 b라는 값과 d, e라는 값이 가장 가깝기 때문에 b, d, e를 하나의 군집으로 또 묶게 됩니다. 06:04 : a와 c에 대해서 거리를 구하면 또 이런 거리행렬이 생기고요. 그래서 그중에서 또 가까운 9를 선택을 해서 06:13 : c와 b, d, e를 하나의 군집으로 묶고 마지막으로 a와 c, b, d, e를 하나의 군집으로 묶으면서 마무리를 할 거예요. 06:24 : 이 덴드로그램을 한번 보면 이렇게 군집이 거리행렬을 통해서 이루어진 것을 한눈에 확인을 하실 수가 있을 거예요. 06:32 : 자 가장 먼저 d와 e라는 값이 하나의 군집이 됐다는 것을 확인할 수 있고, 그다음에 b라는 값이 하나의 군집이 되었죠. 06:44 : 그리고 c라는 값과 하나의 군집이 되었습니다. 06:47 : 그래서 여기 c. 그리고 마지막으로 a와 하나의 군집이 되었어요. 06:52 : 이런 식으로 전체가 하나의 군집이 되는데, 처음에 가까웠던 d, e가 먼저, 그다음에 b, c, a 이런 식으로 hierarchical 하게 계층적으로 표현을 할 거예요. 07:06 : 그래서 계층적 군집분석을 하고 여기서 시험 문제에 나오는 게, 이 덴드로그램이라고 표현하는 이 그림에서 군집을 두 개로 나누겠다. 07:16 : 두 개로 나누겠다면 이 선을 기준으로 두 개로 나누면 a라는 집단 하나 c, b, d, e라는 집단 하나. 아니면 3개 07:25 : a라는 집단 하나, c라는 집단 하나, b, d, e가 하나 이런 식으로 군집을 나눌 수 있을 거예요. 07:32 : 그래서 이거는 2군집, 그리고 3군집, 4군집으로 위해서는 이렇게 나누면 4군집. 이런 식으로 군집으로 나누는 것을 시각적으로 07:42 : 볼 수 있는 게 덴드로그램이란 것도 있다. 라는 점 기억을 하시기 바랍니다 20:00 :	00:05 ~ 02:24		검수 상태 : 불통
lADsP 완전 정복l 비계층적 군집방법 _dIxTLolbv4	00:05 : 비계층적 군집분석에 대한 개념은 n개의 개체를 g개 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화된 군집을 형성하는 것이다. 라고 적혀 있습니다. 00:19 : n개의 개체에 대해서 g개의 군집을 먼저 g개가, 몇 개가 될 거다. 라고 미리 선정을 해 줘야 돼요. 00:25 : g개 군집을 나눌 수 있는 방법이다. 00:28 : 그중에서 가장 많이 사용되는 방법이 K-평균 군집분석이란 게 있습니다. 00:35 : k-means clustering이라고도 하는데, k-means clustering에 대해서 그림을 보면서 이해해 볼게요. 00:42 : 그림을 보시면 왼쪽부터 시작해서 1번, 2번, 3번, 4번, 5번, 6번 순으로 그래프가 변화되는 것을 보실 수 있을 거예요. 00:56 : 가장 먼저 x와 y에 대해서 좌표의 데이터를 뿌렸습니다. 01:03 : 뿌렸는데, 하나의 중점을 던져주고, 그 중점 근처에 있는 값들을 같은 군집이다라고 표시를 할 거예요. 01:12 : 이쪽에 중점, 이쪽에 중점, 이쪽에 중점을 두고, 그 중점과 가까운 데이터들에 대해서 같은 군집으로 묶었을 때, 01:20 : 처음에는 이런 식으로 데이터가 군집이 있었는데, 점점 반복했을 때는 중점의 거리가 멀어질 거예요. 01:32 : 편차의 오차 제곱 합을 최소화해야 되기 때문에 이 중점이 점점 이동을 할 겁니다. 01:40 : 여기서 여기로 이동했고요. 이쪽으로 이동을 했습니다. 01:44 : 그랬을 때 다시 군집에 대해서 값들이 바뀌게 될 거예요. 01:51 : 그리고 또 한 번 진행을 했을 때도 중점이 내려옵니다. 이거는 그대로 있을 거예요. 01:59 : 그랬을 때 다시 군집의 개수가 바뀔 겁니다. 02:04 : 네 번째, 다섯 번째, 여섯 번째까지 반복을 하니까, 첫 번째보다 안정적으로 군집들이 잘 분리가 되어지는 것을 확인 할 수 있고, 02:17 : 중점값들이 점점 이동을 할 거예요. 반복에 따라서 중점이 계속 바뀌면서 군집도 바뀌게 될 거예요. 02:26 : 이 방법을 k-means clustering이라고 표현을 합니다. 02:30 : K-평균 군집 같은 경우는 하는 방법이 어떻게 되느냐, 원하는 군집의 개수를 먼저 정해줘야 돼요. 02:39 : 그리고 초깃값, 어디로 초기 중점을 둘 것이냐. 라고 정한 다음에 시드 중심으로 군집을 형성합니다. 02:48 : 시드값을 중심으로 처음에 군집을 형성을 할 거예요. 02:53 : 그리고 각 데이터를 거리가 가장 가까운 시드가 있는 군집으로 분류를 하고요. 각 군집의 시드를 다시 계산합니다. 03:03 : 오차가 가장 작아질 수 있도록 최적의 중점을 찾아갈 겁니다. 03:08 : 거기에 맞는 값들에 대해서 다시 군집을 하고, 이런 식으로 반복을 할 거예요. 시드값을 다시 계산을 하고요. 03:16 : 모든 개체가 군집으로 할당될 때까지 위의 과정들을 반복한다. 라고 합니다. 03:24 : 첫 번째 한 번 군집이 됐던 게, 또 다른 값으로 군집이 바뀔 수도 있고, 이런 것들이 K-평균 군집의 특징이다, 기억을 하시기 바랍니다. 03:36 : 비계층적 군집 분석, k-means에 대해서 한 번 봤는데, 이거에 대한 장점과 단점이 있을 거예요. 03:45 : 위에는 장점이 아니라 단점입니다. 03:50 : 장점을 보시면 주어진 데이터의 내부 구조에 대한 사전 정보 없이 의미 있는 자료구조를 찾을 수 있다. 03:59 : 이거는 비계층적 군집, 군집 분석에 모든 장점에 포함이 될 수도 있는 말이에요. 04:05 : 사전 정보 없이, 목적 없이 클러스터링을 할 수 있다. 그래서 의미 있는 자료구조를 바로 찾을 수가 있을 거예요. 04:14 : 다양한 형태의 데이터에 적용이 가능하다. 라는 장점도 있습니다. 04:18 : 분석 방법 적용이 용이하다. 라는 장점, 이런 장점에 대해서는 시험 문제에서 물어볼 수 있다. 라는 점 반드시 기억을 하시고요. 04:28 : 비계층적 군집 분석에 대해서 단점도 있어요. 04:32 : 단점이 어떤 것들이 있냐. 가중치와 거리 정의가 어려워요. 04:38 : 가중치 조정을 해야 되는데 가중치를 선정하는 것이나, 아니면 거리를 정의하는 것 자체가 어렵고요. 04:44 : 초기 군집 수를 결정하기가 어렵습니다. 04:48 : 초기 군집 수를 결정을 해야 되는데, 최고의 군집수를 선정을 해야 되는데 그게 어려워요. 04:55 : R 프로그램에서는 nbcluster라는 것을 활용해서 nbcluast 패키지를 활용을 해서 초기 군집 값을 결정하고, 05:06 : 그 군집으로 k-means라든지 k-medoids 이런 방법들을 활용한다. 라고 기억하시면 돼요. 05:13 : 사전에 주어진 목적이 없어 해석이 어려울 수도 있습니다. 05:18 : 군집은 잡혔는데 그 군집에 대한 특징을 확인 못 할 수도 있어요. 그런 단점이 있다고 기억해 주시기를 바랍니다. 05:28 : k-means clustering을 하면서 초기 중심값 설정이 얼만큼 중요한지에 대해서 확인해 보실 수가 있을 거예요. 05:37 : 초기 설정값이 이렇게 주어졌는데, 결국에는 다시 또 이동을 할 거예요. 05:49 : 두 번째, 세 번째, 네 번째, 다섯 번째까지 왔는데, 두 번째에서 데이터를 이런 식으로 중점을 줬어요. 05:58 : 수직으로 데이터를 줬는데, 보통 x라든지, y라는 값이 수평이라든지 수직으로 같은 선상 위에 중점을 주게 되면, 06:10 : 그 근처에서 놀기 때문에 중점이 정확하게 안 잡힐 수도 있어요. 06:16 : 이런 식으로 잡았을 때는 안으로 이동을 해서 겹치게 돼요. 06:21 : 그리고 이것은 이 근처에 중점 근처에 값들이 없습니다. 06:25 : 세 번째는 이 값은 거의 그대로 있고요. 이 값 그대로 가기 때문에. 근데 위에 두 가지 값 같은 경우는 계속 바뀌어요. 중점이. 06:34 : 그래서 이 군집이 정확하게 잘되지 않고 계속해서 바뀔 거다. 06:38 : 이 밑엣것은 문제가 없겠지만 위의 두 개 값은 계속 바뀔 수 있다. 06:43 : 그렇기 때문에 초기 중심값 같은 경우는, 이렇게 두기보다는 앞서 설명을 해드렸던 이런 식으로, 06:52 : 거리를 두고, 오밀조밀하게 모이는 게 아니라, 일자로, 세로나 가로로 두는 게 아니라, 07:00 : 비슷한 위치지만 이런 식으로 x, y 값이 다르게 배치를 하는 것이 낫다. 라는 점 기억을 해주시면 돼요. 07:09 : 비계층적 군집분석 중에서 k-means 중점에 대한 평균값을 계속 구해나가는 k-means clustering을 진행을 할 수 있고, 07:19 : 초기 중심 값 설정이 어려우시면 k-medoids, 중간값을 통해서도 할 수 있다. 아니면 다른 방법 이용을 할 수 있다. 라는 점 기억을 해주시면 됩니다. 07:30 : k-means 같은 경우 장점이라든지, 단점 기억을 하시고요. 07:36 : 이 부분에 대해서 나올 만한 시험 문제가, 방법, 앞서 나왔던 방법, 이런 것들도 시험 문제 나올 수 있으니까 반드시 기억을 해 주시기 바랍니다. 07:51 : 비계층적 군집분석의 첫 번째 k-means clustering에 대해서 한번 개념을 알아봤고요. 20:00 :	00:05 ~ 02:24		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :