남은 문제 : 36
문제 1376
아래는 22개의 미국 전투기에 대한 4개의 변수 값을 사용한 군집분석의 결과이다. 이에 대한 설명 중 부적절한 것은?
보기
1.비계층적 군집분석의 결과이다.
2.위의 방법을 사용할 때 군집 개수를 사전에 결정해야 한다.
3.각 군집은 7개, 9개, 6개의 전투기를 포함한다.
4.각 군집의 중심에 대한 정보가 포함되어 있지 않다.
정답
4
해시
태그
lADsP 완전 정복l 군집분석
_KNmVBI0ZvY
00:06
: 군집분석의 개념을 한번 먼저 확인을 해보겠습니다.
00:09
: 군집분석은 각 객체, 대상의 유사성을 측정하여 유사성이 높은 집단, 대상 집단을 분류하고
00:20
: 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상위성을 규명하는 분석 방법이다. 라고 설명을 하고 있습니다.
00:27
: 여기서 여러분들이 집중해서 보셔야 될 단어는 유사성이에요.
00:38
: 군집분석 같은 경우는 비슷한 데이터들끼리 뭉쳐준다. 라고 생각을 해주시면 됩니다.
00:45
: 앞서 저희가 배운 분석 방법들 있죠. 만약에 로지스틱 회귀분석, 그다음에 의사결정나무, 앙상블, 그다음에 인공신경망. 이런 분석 방법들은
00:58
: 분류분석의 한 방법으로써 supervised learning인 지도 학습의 한 부분이었습니다.
01:08
: 그런데 이제부터 배워 볼 군집분석 같은 경우는 unsupervised learning. 비지도 학습에 포함이 돼요.
01:14
: 이 supervised learning. 지도 학습에는 이 데이터들이 모두 라벨이 있다고 했었어요.
01:23
: 라벨이 있어서 그 라벨로 맞출 수 있게 분류를 한다든지 아니면 그 값으로 예측을 할 수 있게 하는 방법이
01:30
: supervised learning. 지도 학습이라고 말씀을 드렸지만, 군집분석 같은 경우는 이런 라벨 정보가 없습니다.
01:37
: 라벨 정보가 없는 상태에서 비슷한 성질을 가진 데이터들 비슷하고 유사한 데이터.
01:42
: 그래서 데이터들끼리 유사성을 측정한다. 라고 생각을 하시면 돼요. 앞서서 한번 간단하게 예시를 한번 드렸는데
01:54
: 만약에 어느 지역에 고등학교 남고에서 학생들에 대해서 키와 몸무게를 조사를 했습니다.
02:06
: 몸무게를 조사를 그냥 하고 이거를 좌표평면에 펼쳤다고 생각을 해볼게요. 그럼, x축에는 키가 되고, y축에는 몸무게가 됩니다.
02:16
: 그럴 때 데이터들이 키가 170인데 몸무게가 80인 사람도 있을 수 있고, 각각 데이터가 이렇게 뿌려지는 것을 볼 수 있을 거예요.
02:25
: 그런데 이런 식으로 뿌려져 있는 데이터에서 이 정도의 모여 있는 데이터와, 이렇게 모여있는 데이터, 이렇게 모여있는 데이터.
02:36
: 이런 식으로 데이터끼리 비슷해서 하나의 군집으로 묶어줄 수 있는 특성을 보이더라. 라고 판단을 하실 수 있을 거예요.
02:45
: 그래서 유사성이 높은 대상 집단으로 분류를 합니다.
02:50
: 그래서 이 각각 집단에 대한 특성을 한번 파악을 해 보는 거예요. 그 데이터 안에서, 이 데이터가 이런 특징을 가졌기 때문에
02:58
: 이 집단은 어떤 특징을 가지고 있구나. 이게 키와 몸무게로도 가능하지만 보통 홈페이지에서 구매 패턴 이런 것들을 파악하고
03:10
: 구매 금액 이런 것들을 파악을 해서 멤버십이라든지, 이런 거 제공도 보통 이렇게 군집분석을 통해서도 진행을 할 수 있다. 라는 점 기억해 주시면 될 것 같아요.
03:22
: 그래서 여기 군집에 속한 객체들의 유사성, 그리고 다른 군집들과의 상의성을 찾아내는 방법 그걸 군집분석이다. 라고 생각을 하시고
03:31
: 이 군집분석은 앞에서 말씀드린 것처럼 unsupervised learning 비지도 학습입니다.
03:39
: 이 부분 반드시 기억을 하세요. 비지도 학습의 하나인 군집분석에 대해서 학습을 해 볼 겁니다.
03:46
: 그러면 군집분석에 대해서 한번 자세히 한번 확인을 해 볼게요. 이 군집분석 같은 경우에 개요를 조금 더 보고 넘어가 보겠습니다.
03:55
: 특성에 따라서 고객을 여러 개의 배타적인 집단 다른 집단으로 나누는 방법을 군집분석이라고 한다고 했죠.
04:05
: 앞에서 그려드린 이 그림에서 각각 집단마다 성질이 다 다르기 때문에, 이 배타적인 집단을 나누는 것을 군집분석이다. 라고 하는 거예요.
04:15
: 그리고 군집의 개수나 구조에 대한 가정없이 데이터로부터 거리를 기준으로 군집화를 유도한다. 라고 합니다.
04:24
: 여기서 데이터의 군집의 개수를 처음에 정하고 하거나, 아니면 정해놓지 않은 상황에서 군집을 하는 거에 따라서
04:32
: 군집분석 방법이 계층적이냐, 아니면 비계층적이냐 이렇게 나눠서 판단을 할 수 있을 겁니다.
04:40
: 군집분석 같은 경우는 가정이 없이 데이터로부터 거리를 기준으로 군집화를 유도합니다. 거리가 매우 중요해요.
04:48
: 거리를 기준으로 군집화를 유도한다. 라는 점 기억을 하시면 됩니다. 그래서 이런 군집분석을 이용해서 어떤 것을 할 수 있느냐 봤더니
04:56
: 마케팅 조사에서 소비자들의 상품구매 행동이나. 어떤 금액, 얼마만큼의 금액으로 제품을 많이 산다든지
05:06
: 아니면 적은 금액의 제품을 많이 산다. 아니면 큰 금액의 제품을 많이 산다. 이런 식으로 상품구매 행동을 파악하거나
05:14
: 아니면 라이프 스타일에 따라서 소비자군을 분류한다. 이게 예전에 나온 건데 신한카드의 코드나인이라고 해서
05:22
: 사람들의 구매 패턴. 이런 것들을 가지고 9가지의 카드로 사람들에게 추천을 해주는 그런 소비자군 분류를 할 수 있는
05:31
: 시장 전략의 수립을 할 수 있다. 이런 특징을 가지고 군집분석을 주로 많이 활용을 하고 있다. 라는 점 기억을 해주시기 바랍니다.
05:41
: 그래서 군집분석의 목적은 데이터를 목적에 따라 적절한 군집으로 나누는 것이 최고의, 최대 목표입니다.
05:51
: 그래서 적절한 군집으로 나눈다. 라는 점 기억을 하시고
05:54
: 각 군집의 특성, 군집 간의 차이를 명확히 하고 분석하는 것이다. 라고 표현을 합니다.
06:00
: 다른 통계분석 방법 중에서 요인분석이라는 것도 있고, 판별분석이란 것도 있습니다.
06:06
: 요인분석 같은 경우는 보통 설문분석에서 많이 사용하는데 설문분석에서
06:11
: 어떤 설문을 했을 때 나온 점수들을 가지고 비슷한 유형의 변수들끼리 묶어주는 그런 방법을 요인분석이라고 하는데
06:21
: 이 요인분석은 유사한 변수들끼리 함께 묶어주는 것이 목적이지 군집분석은 유사한 변수끼리가 아니라 비슷한 데이터끼리 묶어주는 게 주목적이다.
06:31
: 그리고 판별분석 같은 경우는 군집분석과 유사하지만 라벨이 있다고 말씀을 드렸어요.
06:37
: 그래서 사전에 집단이 나누어져 있다는 점이 차이점이다. 라고 기억을 하시면 돼요.
06:43
: 밑에 간단하게 예시가 하나 나와 있습니다. 보시면 이렇게 점들이 막 찍혀 있는데
06:50
: 동그라미인 데이터들도 있고, 세모인 데이터들도 있고, 색깔 있는 x인 데이터도 있습니다.
06:56
: 그래서 이 한 지점이 한 데이터들마다 성질이 다 다르기 때문에 이렇게 한 군집이 이루어질 수도 있고
07:04
: 이렇게 한 군집, 이렇게 한 군집이 이뤄질 수 있다. 그래서 이 각각의 데이터에 특징을 파악하는 게 중요하다. 라고 말씀을 드릴 수 있어요.
07:12
: 그러면 제가 앞에서 한번 말씀드렸는데, 이 군집분석에서 제일 중요한 게 거리라고 했습니다.
07:20
: 유사성을 측정하기 위한 기준이 거리가 돼요. 그러면 이 거리를 어떻게 구하는지도 여러분들이 아셔야 될 거예요.
20:00
:
00:06
~
02:20
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 군집분석_거리
29elTUfJgFE
00:05
: 이 화면을 보시면 거리를 구하는 방법들이 나와 있다. 라는 것을 볼 수 있을 거예요.
00:11
: 거리 같은 경우는 유클리드 거리부터 시작해서 표준화 거리, 마할라노비스 거리, 그다음에 쳬비셰프, 맨라탄, 캔버라, 민코우스키 거리
00:25
: 대략적으로 7개 정도의 거리가 있어요. 이 거리의 이름들은 다들 외우고 계셔야 돼요.
00:32
: 이게 어디에 사용되느냐에 따라서 사용되는 거리는 다른데 종류가 총 7가지이고, 이런 거리가 있다. 라는 점을 기억을 하셔야 됩니다.
00:42
: 이런 거리들은 일반적으로 첫 번째는 연속형 변수에 대해서 한번 볼 거예요.
00:47
: 연속형 변수에 대해서 거리를 구할 때는 총 7개의 거리가 있다. 라는 점 기억을 하시고 그다음에 이름은 다들 기억하되
00:56
: 특히 더 잘 기억해야 되는 거리들을 말씀을 드리면 유클리드 거리, 맨하탄 거리. 이 정도는 계산식도 이해를 하고 계셔야 됩니다.
01:08
: 유클리드 거리 같은 경우는 여러분들이 많이 들어보신 거리일 거예요. 데이터 간에 유사성을 측정할 때 많이 사용하는 거리입니다.
01:17
: 그래서 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되지 않은 거리다. 라고 적혀 있습니다.
01:26
: 그래서 거리를 보시면 뒤에 x 콤마 y는 루트 xi-yi에서 xp까지 yp를 마이너스.
01:40
: 했을 때 루트의 결괏값을 전체 다 더했을 때, 그 결괏값이 거리로 나타난다. 라고 기억을 하시면 되고
01:47
: 그다음에 표준화 거리, 마할라노비스 거리, 쳬비셰프 있는데, 유클리드 거리와 맨하탄 거리. 맨하탄 거리 같은 경우는 유클리드 거리와 함께 가장 많이 사용되는 거리예요.
01:57
: 그래서 맨하탄 도시의 건물에서 건물로 가기 위한 최단 거리를 구하기 위해 고안된 거리가 바로 맨하튼 거리다. 라는 점 기억을 해주시기 바랍니다.
02:11
: 그래서 유클리드 거리와 맨하탄 거리 같은 경우는 한번 직접 계산을 한번 해 볼게요.
02:17
: x라는 값과 y라는 값이 있다고 할 때 a, b, c라는 사람이 있습니다. 그래서 2, 5, 그다음에 1, 4, 그다음에 2, 3이라는 좌표 평면에 이렇게 점을 찍어 낼 수 있을 겁니다.
02:32
: 그랬을 때 유클리드 거리를 한번 구해 보면 a와 b 간의 거리를 한번 보면 루트 2-1의 제곱 값 + 5-4의 제곱 값입니다. 그랬을 때 결괏값이.
02:48
: 루트 1+1=루트 2. a와 b 간의 유클리드 거리는 2가 된다. 라는 점 기억을 하실 수 있을 거예요.
02:59
: 그리고 또 유클리드 거리 말고도 직접 구할 수 있는 거리는 보통은 시험에서 맨하탄 거리를 주로 많이 표현을 하더라고요.
03:08
: 그래서 맨하탄 거리를 보시면 절댓값을 x-y에 대한 절댓값을 구한다. 라고 기억을 하시면 돼요.
03:15
: 그래서 x들끼리의 거리를 봤을 때 2-1의 절댓값+5-4의 절댓값을 구했을 때 거리는 2가 된다.
03:26
: 2는 바로 맨하탄 거리다. 라고 기억을 하시면 됩니다.
03:29
: 그래서 이런 식으로 거리를 구할 수 있어요. 그래서 직접 거리를 구하는 시험은 반드시 나오기 때문에 기억을 해 주시기 바랍니다.
03:37
: 보통은 표준화 거리라든지, 쳬비셰프 거리. 쳬비셰프 거리는 괜찮은데 마할라노비스 거리나 표준화 거리 이런 것들은 시험이 나오기 어렵습니다.
03:47
: 캔버라 거리도 그렇고 그런데 민코우스키 거리를 한번 보시면 여기 m 값이 있죠.
03:54
: m이라는 값이 1이 되면 맨하탄 거리가 되고요, m이 2이면 유클리드 거리가 된다. 라는 점 반드시 기억을 하시기 바랍니다.
04:06
: m의 값에 따라서 거리가 바뀐다. 그리고 이거를 따라서 l1 거리 아니면 l2 거리 이렇게 표현도 하고 있다. 라는 점 기억을 해주시기 바랍니다.
04:16
: 그러면 이렇게 하면 시험에 나올 만한 거는 유클리드 거리 구하기, 맨하탄 거리 구하기. 이 정도는 아마 이해를 하실 수 있으실 거예요.
04:26
: 방금 본 거는 연속형 변수에 대해서 한번 확인을 해봤어요.
04:32
: 연속형 변수에 대해서 한번 거리를 봤을 때는 이런 식으로 나타나는데 범주형 변수에 대해서도 저희가 거리를 구할 수 있습니다.
04:41
: 범주형 변수 같은 경우, 우리가 가진 자료가 질적 자료이면 자카드 거리 아니면 코사인 거리를 이용해서 거리를 구할 수 있어요.
04:50
: 그래서 보통 범주형 변수에는 자카드 계수를 통해서 자카드 거리를 구한다거나
04:59
: 코사인 유사도를 통해서 코사인 거리를 구한다. 이런 점을 기억해 주시고요.
05:04
: 그리고 코사인 거리 같은 경우, 이거는 수식을 외워두세요. 여기에 단답이나 아니면 객관식의 물음에 답할 수 있는 수식이
05:17
: 이런 식으로 나오는 경우가 있어요. 그래서 이거에 대해서는 반드시 기억을 하고 계셔야 됩니다.
05:21
: 자카드 계수를 물어보거나 할 수도 있지만, 이거는 직접 계산하는 시험 문제보다는 이런 수식을 보고 어떤 거리인지
05:30
: 어떤 유사도 계수인지 이런 것들을 물어보는 시험 문제가 주로 나오기 때문에 반드시 기억을 하시기 바랍니다.
20:00
:
00:05
~
02:11
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 비계층적 군집방법
_dIxTLolbv4
00:05
: 비계층적 군집분석에 대한 개념은 n개의 개체를 g개 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화된 군집을 형성하는 것이다. 라고 적혀 있습니다.
00:19
: n개의 개체에 대해서 g개의 군집을 먼저 g개가, 몇 개가 될 거다. 라고 미리 선정을 해 줘야 돼요.
00:25
: g개 군집을 나눌 수 있는 방법이다.
00:28
: 그중에서 가장 많이 사용되는 방법이 K-평균 군집분석이란 게 있습니다.
00:35
: k-means clustering이라고도 하는데, k-means clustering에 대해서 그림을 보면서 이해해 볼게요.
00:42
: 그림을 보시면 왼쪽부터 시작해서 1번, 2번, 3번, 4번, 5번, 6번 순으로 그래프가 변화되는 것을 보실 수 있을 거예요.
00:56
: 가장 먼저 x와 y에 대해서 좌표의 데이터를 뿌렸습니다.
01:03
: 뿌렸는데, 하나의 중점을 던져주고, 그 중점 근처에 있는 값들을 같은 군집이다라고 표시를 할 거예요.
01:12
: 이쪽에 중점, 이쪽에 중점, 이쪽에 중점을 두고, 그 중점과 가까운 데이터들에 대해서 같은 군집으로 묶었을 때,
01:20
: 처음에는 이런 식으로 데이터가 군집이 있었는데, 점점 반복했을 때는 중점의 거리가 멀어질 거예요.
01:32
: 편차의 오차 제곱 합을 최소화해야 되기 때문에 이 중점이 점점 이동을 할 겁니다.
01:40
: 여기서 여기로 이동했고요. 이쪽으로 이동을 했습니다.
01:44
: 그랬을 때 다시 군집에 대해서 값들이 바뀌게 될 거예요.
01:51
: 그리고 또 한 번 진행을 했을 때도 중점이 내려옵니다. 이거는 그대로 있을 거예요.
01:59
: 그랬을 때 다시 군집의 개수가 바뀔 겁니다.
02:04
: 네 번째, 다섯 번째, 여섯 번째까지 반복을 하니까, 첫 번째보다 안정적으로 군집들이 잘 분리가 되어지는 것을 확인 할 수 있고,
02:17
: 중점값들이 점점 이동을 할 거예요. 반복에 따라서 중점이 계속 바뀌면서 군집도 바뀌게 될 거예요.
02:26
: 이 방법을 k-means clustering이라고 표현을 합니다.
02:30
: K-평균 군집 같은 경우는 하는 방법이 어떻게 되느냐, 원하는 군집의 개수를 먼저 정해줘야 돼요.
02:39
: 그리고 초깃값, 어디로 초기 중점을 둘 것이냐. 라고 정한 다음에 시드 중심으로 군집을 형성합니다.
02:48
: 시드값을 중심으로 처음에 군집을 형성을 할 거예요.
02:53
: 그리고 각 데이터를 거리가 가장 가까운 시드가 있는 군집으로 분류를 하고요. 각 군집의 시드를 다시 계산합니다.
03:03
: 오차가 가장 작아질 수 있도록 최적의 중점을 찾아갈 겁니다.
03:08
: 거기에 맞는 값들에 대해서 다시 군집을 하고, 이런 식으로 반복을 할 거예요. 시드값을 다시 계산을 하고요.
03:16
: 모든 개체가 군집으로 할당될 때까지 위의 과정들을 반복한다. 라고 합니다.
03:24
: 첫 번째 한 번 군집이 됐던 게, 또 다른 값으로 군집이 바뀔 수도 있고, 이런 것들이 K-평균 군집의 특징이다, 기억을 하시기 바랍니다.
03:36
: 비계층적 군집 분석, k-means에 대해서 한 번 봤는데, 이거에 대한 장점과 단점이 있을 거예요.
03:45
: 위에는 장점이 아니라 단점입니다.
03:50
: 장점을 보시면 주어진 데이터의 내부 구조에 대한 사전 정보 없이 의미 있는 자료구조를 찾을 수 있다.
03:59
: 이거는 비계층적 군집, 군집 분석에 모든 장점에 포함이 될 수도 있는 말이에요.
04:05
: 사전 정보 없이, 목적 없이 클러스터링을 할 수 있다. 그래서 의미 있는 자료구조를 바로 찾을 수가 있을 거예요.
04:14
: 다양한 형태의 데이터에 적용이 가능하다. 라는 장점도 있습니다.
04:18
: 분석 방법 적용이 용이하다. 라는 장점, 이런 장점에 대해서는 시험 문제에서 물어볼 수 있다. 라는 점 반드시 기억을 하시고요.
04:28
: 비계층적 군집 분석에 대해서 단점도 있어요.
04:32
: 단점이 어떤 것들이 있냐. 가중치와 거리 정의가 어려워요.
04:38
: 가중치 조정을 해야 되는데 가중치를 선정하는 것이나, 아니면 거리를 정의하는 것 자체가 어렵고요.
04:44
: 초기 군집 수를 결정하기가 어렵습니다.
04:48
: 초기 군집 수를 결정을 해야 되는데, 최고의 군집수를 선정을 해야 되는데 그게 어려워요.
04:55
: R 프로그램에서는 nbcluster라는 것을 활용해서 nbcluast 패키지를 활용을 해서 초기 군집 값을 결정하고,
05:06
: 그 군집으로 k-means라든지 k-medoids 이런 방법들을 활용한다. 라고 기억하시면 돼요.
05:13
: 사전에 주어진 목적이 없어 해석이 어려울 수도 있습니다.
05:18
: 군집은 잡혔는데 그 군집에 대한 특징을 확인 못 할 수도 있어요. 그런 단점이 있다고 기억해 주시기를 바랍니다.
05:28
: k-means clustering을 하면서 초기 중심값 설정이 얼만큼 중요한지에 대해서 확인해 보실 수가 있을 거예요.
05:37
: 초기 설정값이 이렇게 주어졌는데, 결국에는 다시 또 이동을 할 거예요.
05:49
: 두 번째, 세 번째, 네 번째, 다섯 번째까지 왔는데, 두 번째에서 데이터를 이런 식으로 중점을 줬어요.
05:58
: 수직으로 데이터를 줬는데, 보통 x라든지, y라는 값이 수평이라든지 수직으로 같은 선상 위에 중점을 주게 되면,
06:10
: 그 근처에서 놀기 때문에 중점이 정확하게 안 잡힐 수도 있어요.
06:16
: 이런 식으로 잡았을 때는 안으로 이동을 해서 겹치게 돼요.
06:21
: 그리고 이것은 이 근처에 중점 근처에 값들이 없습니다.
06:25
: 세 번째는 이 값은 거의 그대로 있고요. 이 값 그대로 가기 때문에. 근데 위에 두 가지 값 같은 경우는 계속 바뀌어요. 중점이.
06:34
: 그래서 이 군집이 정확하게 잘되지 않고 계속해서 바뀔 거다.
06:38
: 이 밑엣것은 문제가 없겠지만 위의 두 개 값은 계속 바뀔 수 있다.
06:43
: 그렇기 때문에 초기 중심값 같은 경우는, 이렇게 두기보다는 앞서 설명을 해드렸던 이런 식으로,
06:52
: 거리를 두고, 오밀조밀하게 모이는 게 아니라, 일자로, 세로나 가로로 두는 게 아니라,
07:00
: 비슷한 위치지만 이런 식으로 x, y 값이 다르게 배치를 하는 것이 낫다. 라는 점 기억을 해주시면 돼요.
07:09
: 비계층적 군집분석 중에서 k-means 중점에 대한 평균값을 계속 구해나가는 k-means clustering을 진행을 할 수 있고,
07:19
: 초기 중심 값 설정이 어려우시면 k-medoids, 중간값을 통해서도 할 수 있다. 아니면 다른 방법 이용을 할 수 있다. 라는 점 기억을 해주시면 됩니다.
07:30
: k-means 같은 경우 장점이라든지, 단점 기억을 하시고요.
07:36
: 이 부분에 대해서 나올 만한 시험 문제가, 방법, 앞서 나왔던 방법, 이런 것들도 시험 문제 나올 수 있으니까 반드시 기억을 해 주시기 바랍니다.
07:51
: 비계층적 군집분석의 첫 번째 k-means clustering에 대해서 한번 개념을 알아봤고요.
20:00
:
00:05
~
02:24
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음