남은 문제 : 36
문제 1361
계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법이다. 다음 중 계층적 군집 분석 결과를 나타내는 도표로 가장 적절한 것은?
보기
1.향상도 곡선
2.ROC 그래프
3.덴드로그램
4.산점도
정답
3
해시
태그
lADsP 완전 정복l 군집분석
_KNmVBI0ZvY
00:06
: 군집분석의 개념을 한번 먼저 확인을 해보겠습니다.
00:09
: 군집분석은 각 객체, 대상의 유사성을 측정하여 유사성이 높은 집단, 대상 집단을 분류하고
00:20
: 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상위성을 규명하는 분석 방법이다. 라고 설명을 하고 있습니다.
00:27
: 여기서 여러분들이 집중해서 보셔야 될 단어는 유사성이에요.
00:38
: 군집분석 같은 경우는 비슷한 데이터들끼리 뭉쳐준다. 라고 생각을 해주시면 됩니다.
00:45
: 앞서 저희가 배운 분석 방법들 있죠. 만약에 로지스틱 회귀분석, 그다음에 의사결정나무, 앙상블, 그다음에 인공신경망. 이런 분석 방법들은
00:58
: 분류분석의 한 방법으로써 supervised learning인 지도 학습의 한 부분이었습니다.
01:08
: 그런데 이제부터 배워 볼 군집분석 같은 경우는 unsupervised learning. 비지도 학습에 포함이 돼요.
01:14
: 이 supervised learning. 지도 학습에는 이 데이터들이 모두 라벨이 있다고 했었어요.
01:23
: 라벨이 있어서 그 라벨로 맞출 수 있게 분류를 한다든지 아니면 그 값으로 예측을 할 수 있게 하는 방법이
01:30
: supervised learning. 지도 학습이라고 말씀을 드렸지만, 군집분석 같은 경우는 이런 라벨 정보가 없습니다.
01:37
: 라벨 정보가 없는 상태에서 비슷한 성질을 가진 데이터들 비슷하고 유사한 데이터.
01:42
: 그래서 데이터들끼리 유사성을 측정한다. 라고 생각을 하시면 돼요. 앞서서 한번 간단하게 예시를 한번 드렸는데
01:54
: 만약에 어느 지역에 고등학교 남고에서 학생들에 대해서 키와 몸무게를 조사를 했습니다.
02:06
: 몸무게를 조사를 그냥 하고 이거를 좌표평면에 펼쳤다고 생각을 해볼게요. 그럼, x축에는 키가 되고, y축에는 몸무게가 됩니다.
02:16
: 그럴 때 데이터들이 키가 170인데 몸무게가 80인 사람도 있을 수 있고, 각각 데이터가 이렇게 뿌려지는 것을 볼 수 있을 거예요.
02:25
: 그런데 이런 식으로 뿌려져 있는 데이터에서 이 정도의 모여 있는 데이터와, 이렇게 모여있는 데이터, 이렇게 모여있는 데이터.
02:36
: 이런 식으로 데이터끼리 비슷해서 하나의 군집으로 묶어줄 수 있는 특성을 보이더라. 라고 판단을 하실 수 있을 거예요.
02:45
: 그래서 유사성이 높은 대상 집단으로 분류를 합니다.
02:50
: 그래서 이 각각 집단에 대한 특성을 한번 파악을 해 보는 거예요. 그 데이터 안에서, 이 데이터가 이런 특징을 가졌기 때문에
02:58
: 이 집단은 어떤 특징을 가지고 있구나. 이게 키와 몸무게로도 가능하지만 보통 홈페이지에서 구매 패턴 이런 것들을 파악하고
03:10
: 구매 금액 이런 것들을 파악을 해서 멤버십이라든지, 이런 거 제공도 보통 이렇게 군집분석을 통해서도 진행을 할 수 있다. 라는 점 기억해 주시면 될 것 같아요.
03:22
: 그래서 여기 군집에 속한 객체들의 유사성, 그리고 다른 군집들과의 상의성을 찾아내는 방법 그걸 군집분석이다. 라고 생각을 하시고
03:31
: 이 군집분석은 앞에서 말씀드린 것처럼 unsupervised learning 비지도 학습입니다.
03:39
: 이 부분 반드시 기억을 하세요. 비지도 학습의 하나인 군집분석에 대해서 학습을 해 볼 겁니다.
03:46
: 그러면 군집분석에 대해서 한번 자세히 한번 확인을 해 볼게요. 이 군집분석 같은 경우에 개요를 조금 더 보고 넘어가 보겠습니다.
03:55
: 특성에 따라서 고객을 여러 개의 배타적인 집단 다른 집단으로 나누는 방법을 군집분석이라고 한다고 했죠.
04:05
: 앞에서 그려드린 이 그림에서 각각 집단마다 성질이 다 다르기 때문에, 이 배타적인 집단을 나누는 것을 군집분석이다. 라고 하는 거예요.
04:15
: 그리고 군집의 개수나 구조에 대한 가정없이 데이터로부터 거리를 기준으로 군집화를 유도한다. 라고 합니다.
04:24
: 여기서 데이터의 군집의 개수를 처음에 정하고 하거나, 아니면 정해놓지 않은 상황에서 군집을 하는 거에 따라서
04:32
: 군집분석 방법이 계층적이냐, 아니면 비계층적이냐 이렇게 나눠서 판단을 할 수 있을 겁니다.
04:40
: 군집분석 같은 경우는 가정이 없이 데이터로부터 거리를 기준으로 군집화를 유도합니다. 거리가 매우 중요해요.
04:48
: 거리를 기준으로 군집화를 유도한다. 라는 점 기억을 하시면 됩니다. 그래서 이런 군집분석을 이용해서 어떤 것을 할 수 있느냐 봤더니
04:56
: 마케팅 조사에서 소비자들의 상품구매 행동이나. 어떤 금액, 얼마만큼의 금액으로 제품을 많이 산다든지
05:06
: 아니면 적은 금액의 제품을 많이 산다. 아니면 큰 금액의 제품을 많이 산다. 이런 식으로 상품구매 행동을 파악하거나
05:14
: 아니면 라이프 스타일에 따라서 소비자군을 분류한다. 이게 예전에 나온 건데 신한카드의 코드나인이라고 해서
05:22
: 사람들의 구매 패턴. 이런 것들을 가지고 9가지의 카드로 사람들에게 추천을 해주는 그런 소비자군 분류를 할 수 있는
05:31
: 시장 전략의 수립을 할 수 있다. 이런 특징을 가지고 군집분석을 주로 많이 활용을 하고 있다. 라는 점 기억을 해주시기 바랍니다.
05:41
: 그래서 군집분석의 목적은 데이터를 목적에 따라 적절한 군집으로 나누는 것이 최고의, 최대 목표입니다.
05:51
: 그래서 적절한 군집으로 나눈다. 라는 점 기억을 하시고
05:54
: 각 군집의 특성, 군집 간의 차이를 명확히 하고 분석하는 것이다. 라고 표현을 합니다.
06:00
: 다른 통계분석 방법 중에서 요인분석이라는 것도 있고, 판별분석이란 것도 있습니다.
06:06
: 요인분석 같은 경우는 보통 설문분석에서 많이 사용하는데 설문분석에서
06:11
: 어떤 설문을 했을 때 나온 점수들을 가지고 비슷한 유형의 변수들끼리 묶어주는 그런 방법을 요인분석이라고 하는데
06:21
: 이 요인분석은 유사한 변수들끼리 함께 묶어주는 것이 목적이지 군집분석은 유사한 변수끼리가 아니라 비슷한 데이터끼리 묶어주는 게 주목적이다.
06:31
: 그리고 판별분석 같은 경우는 군집분석과 유사하지만 라벨이 있다고 말씀을 드렸어요.
06:37
: 그래서 사전에 집단이 나누어져 있다는 점이 차이점이다. 라고 기억을 하시면 돼요.
06:43
: 밑에 간단하게 예시가 하나 나와 있습니다. 보시면 이렇게 점들이 막 찍혀 있는데
06:50
: 동그라미인 데이터들도 있고, 세모인 데이터들도 있고, 색깔 있는 x인 데이터도 있습니다.
06:56
: 그래서 이 한 지점이 한 데이터들마다 성질이 다 다르기 때문에 이렇게 한 군집이 이루어질 수도 있고
07:04
: 이렇게 한 군집, 이렇게 한 군집이 이뤄질 수 있다. 그래서 이 각각의 데이터에 특징을 파악하는 게 중요하다. 라고 말씀을 드릴 수 있어요.
07:12
: 그러면 제가 앞에서 한번 말씀드렸는데, 이 군집분석에서 제일 중요한 게 거리라고 했습니다.
07:20
: 유사성을 측정하기 위한 기준이 거리가 돼요. 그러면 이 거리를 어떻게 구하는지도 여러분들이 아셔야 될 거예요.
20:00
:
00:06
~
01:14
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 군집분석_거리
29elTUfJgFE
00:05
: 이 화면을 보시면 거리를 구하는 방법들이 나와 있다. 라는 것을 볼 수 있을 거예요.
00:11
: 거리 같은 경우는 유클리드 거리부터 시작해서 표준화 거리, 마할라노비스 거리, 그다음에 쳬비셰프, 맨라탄, 캔버라, 민코우스키 거리
00:25
: 대략적으로 7개 정도의 거리가 있어요. 이 거리의 이름들은 다들 외우고 계셔야 돼요.
00:32
: 이게 어디에 사용되느냐에 따라서 사용되는 거리는 다른데 종류가 총 7가지이고, 이런 거리가 있다. 라는 점을 기억을 하셔야 됩니다.
00:42
: 이런 거리들은 일반적으로 첫 번째는 연속형 변수에 대해서 한번 볼 거예요.
00:47
: 연속형 변수에 대해서 거리를 구할 때는 총 7개의 거리가 있다. 라는 점 기억을 하시고 그다음에 이름은 다들 기억하되
00:56
: 특히 더 잘 기억해야 되는 거리들을 말씀을 드리면 유클리드 거리, 맨하탄 거리. 이 정도는 계산식도 이해를 하고 계셔야 됩니다.
01:08
: 유클리드 거리 같은 경우는 여러분들이 많이 들어보신 거리일 거예요. 데이터 간에 유사성을 측정할 때 많이 사용하는 거리입니다.
01:17
: 그래서 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되지 않은 거리다. 라고 적혀 있습니다.
01:26
: 그래서 거리를 보시면 뒤에 x 콤마 y는 루트 xi-yi에서 xp까지 yp를 마이너스.
01:40
: 했을 때 루트의 결괏값을 전체 다 더했을 때, 그 결괏값이 거리로 나타난다. 라고 기억을 하시면 되고
01:47
: 그다음에 표준화 거리, 마할라노비스 거리, 쳬비셰프 있는데, 유클리드 거리와 맨하탄 거리. 맨하탄 거리 같은 경우는 유클리드 거리와 함께 가장 많이 사용되는 거리예요.
01:57
: 그래서 맨하탄 도시의 건물에서 건물로 가기 위한 최단 거리를 구하기 위해 고안된 거리가 바로 맨하튼 거리다. 라는 점 기억을 해주시기 바랍니다.
02:11
: 그래서 유클리드 거리와 맨하탄 거리 같은 경우는 한번 직접 계산을 한번 해 볼게요.
02:17
: x라는 값과 y라는 값이 있다고 할 때 a, b, c라는 사람이 있습니다. 그래서 2, 5, 그다음에 1, 4, 그다음에 2, 3이라는 좌표 평면에 이렇게 점을 찍어 낼 수 있을 겁니다.
02:32
: 그랬을 때 유클리드 거리를 한번 구해 보면 a와 b 간의 거리를 한번 보면 루트 2-1의 제곱 값 + 5-4의 제곱 값입니다. 그랬을 때 결괏값이.
02:48
: 루트 1+1=루트 2. a와 b 간의 유클리드 거리는 2가 된다. 라는 점 기억을 하실 수 있을 거예요.
02:59
: 그리고 또 유클리드 거리 말고도 직접 구할 수 있는 거리는 보통은 시험에서 맨하탄 거리를 주로 많이 표현을 하더라고요.
03:08
: 그래서 맨하탄 거리를 보시면 절댓값을 x-y에 대한 절댓값을 구한다. 라고 기억을 하시면 돼요.
03:15
: 그래서 x들끼리의 거리를 봤을 때 2-1의 절댓값+5-4의 절댓값을 구했을 때 거리는 2가 된다.
03:26
: 2는 바로 맨하탄 거리다. 라고 기억을 하시면 됩니다.
03:29
: 그래서 이런 식으로 거리를 구할 수 있어요. 그래서 직접 거리를 구하는 시험은 반드시 나오기 때문에 기억을 해 주시기 바랍니다.
03:37
: 보통은 표준화 거리라든지, 쳬비셰프 거리. 쳬비셰프 거리는 괜찮은데 마할라노비스 거리나 표준화 거리 이런 것들은 시험이 나오기 어렵습니다.
03:47
: 캔버라 거리도 그렇고 그런데 민코우스키 거리를 한번 보시면 여기 m 값이 있죠.
03:54
: m이라는 값이 1이 되면 맨하탄 거리가 되고요, m이 2이면 유클리드 거리가 된다. 라는 점 반드시 기억을 하시기 바랍니다.
04:06
: m의 값에 따라서 거리가 바뀐다. 그리고 이거를 따라서 l1 거리 아니면 l2 거리 이렇게 표현도 하고 있다. 라는 점 기억을 해주시기 바랍니다.
04:16
: 그러면 이렇게 하면 시험에 나올 만한 거는 유클리드 거리 구하기, 맨하탄 거리 구하기. 이 정도는 아마 이해를 하실 수 있으실 거예요.
04:26
: 방금 본 거는 연속형 변수에 대해서 한번 확인을 해봤어요.
04:32
: 연속형 변수에 대해서 한번 거리를 봤을 때는 이런 식으로 나타나는데 범주형 변수에 대해서도 저희가 거리를 구할 수 있습니다.
04:41
: 범주형 변수 같은 경우, 우리가 가진 자료가 질적 자료이면 자카드 거리 아니면 코사인 거리를 이용해서 거리를 구할 수 있어요.
04:50
: 그래서 보통 범주형 변수에는 자카드 계수를 통해서 자카드 거리를 구한다거나
04:59
: 코사인 유사도를 통해서 코사인 거리를 구한다. 이런 점을 기억해 주시고요.
05:04
: 그리고 코사인 거리 같은 경우, 이거는 수식을 외워두세요. 여기에 단답이나 아니면 객관식의 물음에 답할 수 있는 수식이
05:17
: 이런 식으로 나오는 경우가 있어요. 그래서 이거에 대해서는 반드시 기억을 하고 계셔야 됩니다.
05:21
: 자카드 계수를 물어보거나 할 수도 있지만, 이거는 직접 계산하는 시험 문제보다는 이런 수식을 보고 어떤 거리인지
05:30
: 어떤 유사도 계수인지 이런 것들을 물어보는 시험 문제가 주로 나오기 때문에 반드시 기억을 하시기 바랍니다.
20:00
:
01:08
~
02:28
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 군집분석_거리
29elTUfJgFE
00:05
: 이 화면을 보시면 거리를 구하는 방법들이 나와 있다. 라는 것을 볼 수 있을 거예요.
00:11
: 거리 같은 경우는 유클리드 거리부터 시작해서 표준화 거리, 마할라노비스 거리, 그다음에 쳬비셰프, 맨라탄, 캔버라, 민코우스키 거리
00:25
: 대략적으로 7개 정도의 거리가 있어요. 이 거리의 이름들은 다들 외우고 계셔야 돼요.
00:32
: 이게 어디에 사용되느냐에 따라서 사용되는 거리는 다른데 종류가 총 7가지이고, 이런 거리가 있다. 라는 점을 기억을 하셔야 됩니다.
00:42
: 이런 거리들은 일반적으로 첫 번째는 연속형 변수에 대해서 한번 볼 거예요.
00:47
: 연속형 변수에 대해서 거리를 구할 때는 총 7개의 거리가 있다. 라는 점 기억을 하시고 그다음에 이름은 다들 기억하되
00:56
: 특히 더 잘 기억해야 되는 거리들을 말씀을 드리면 유클리드 거리, 맨하탄 거리. 이 정도는 계산식도 이해를 하고 계셔야 됩니다.
01:08
: 유클리드 거리 같은 경우는 여러분들이 많이 들어보신 거리일 거예요. 데이터 간에 유사성을 측정할 때 많이 사용하는 거리입니다.
01:17
: 그래서 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되지 않은 거리다. 라고 적혀 있습니다.
01:26
: 그래서 거리를 보시면 뒤에 x 콤마 y는 루트 xi-yi에서 xp까지 yp를 마이너스.
01:40
: 했을 때 루트의 결괏값을 전체 다 더했을 때, 그 결괏값이 거리로 나타난다. 라고 기억을 하시면 되고
01:47
: 그다음에 표준화 거리, 마할라노비스 거리, 쳬비셰프 있는데, 유클리드 거리와 맨하탄 거리. 맨하탄 거리 같은 경우는 유클리드 거리와 함께 가장 많이 사용되는 거리예요.
01:57
: 그래서 맨하탄 도시의 건물에서 건물로 가기 위한 최단 거리를 구하기 위해 고안된 거리가 바로 맨하튼 거리다. 라는 점 기억을 해주시기 바랍니다.
02:11
: 그래서 유클리드 거리와 맨하탄 거리 같은 경우는 한번 직접 계산을 한번 해 볼게요.
02:17
: x라는 값과 y라는 값이 있다고 할 때 a, b, c라는 사람이 있습니다. 그래서 2, 5, 그다음에 1, 4, 그다음에 2, 3이라는 좌표 평면에 이렇게 점을 찍어 낼 수 있을 겁니다.
02:32
: 그랬을 때 유클리드 거리를 한번 구해 보면 a와 b 간의 거리를 한번 보면 루트 2-1의 제곱 값 + 5-4의 제곱 값입니다. 그랬을 때 결괏값이.
02:48
: 루트 1+1=루트 2. a와 b 간의 유클리드 거리는 2가 된다. 라는 점 기억을 하실 수 있을 거예요.
02:59
: 그리고 또 유클리드 거리 말고도 직접 구할 수 있는 거리는 보통은 시험에서 맨하탄 거리를 주로 많이 표현을 하더라고요.
03:08
: 그래서 맨하탄 거리를 보시면 절댓값을 x-y에 대한 절댓값을 구한다. 라고 기억을 하시면 돼요.
03:15
: 그래서 x들끼리의 거리를 봤을 때 2-1의 절댓값+5-4의 절댓값을 구했을 때 거리는 2가 된다.
03:26
: 2는 바로 맨하탄 거리다. 라고 기억을 하시면 됩니다.
03:29
: 그래서 이런 식으로 거리를 구할 수 있어요. 그래서 직접 거리를 구하는 시험은 반드시 나오기 때문에 기억을 해 주시기 바랍니다.
03:37
: 보통은 표준화 거리라든지, 쳬비셰프 거리. 쳬비셰프 거리는 괜찮은데 마할라노비스 거리나 표준화 거리 이런 것들은 시험이 나오기 어렵습니다.
03:47
: 캔버라 거리도 그렇고 그런데 민코우스키 거리를 한번 보시면 여기 m 값이 있죠.
03:54
: m이라는 값이 1이 되면 맨하탄 거리가 되고요, m이 2이면 유클리드 거리가 된다. 라는 점 반드시 기억을 하시기 바랍니다.
04:06
: m의 값에 따라서 거리가 바뀐다. 그리고 이거를 따라서 l1 거리 아니면 l2 거리 이렇게 표현도 하고 있다. 라는 점 기억을 해주시기 바랍니다.
04:16
: 그러면 이렇게 하면 시험에 나올 만한 거는 유클리드 거리 구하기, 맨하탄 거리 구하기. 이 정도는 아마 이해를 하실 수 있으실 거예요.
04:26
: 방금 본 거는 연속형 변수에 대해서 한번 확인을 해봤어요.
04:32
: 연속형 변수에 대해서 한번 거리를 봤을 때는 이런 식으로 나타나는데 범주형 변수에 대해서도 저희가 거리를 구할 수 있습니다.
04:41
: 범주형 변수 같은 경우, 우리가 가진 자료가 질적 자료이면 자카드 거리 아니면 코사인 거리를 이용해서 거리를 구할 수 있어요.
04:50
: 그래서 보통 범주형 변수에는 자카드 계수를 통해서 자카드 거리를 구한다거나
04:59
: 코사인 유사도를 통해서 코사인 거리를 구한다. 이런 점을 기억해 주시고요.
05:04
: 그리고 코사인 거리 같은 경우, 이거는 수식을 외워두세요. 여기에 단답이나 아니면 객관식의 물음에 답할 수 있는 수식이
05:17
: 이런 식으로 나오는 경우가 있어요. 그래서 이거에 대해서는 반드시 기억을 하고 계셔야 됩니다.
05:21
: 자카드 계수를 물어보거나 할 수도 있지만, 이거는 직접 계산하는 시험 문제보다는 이런 수식을 보고 어떤 거리인지
05:30
: 어떤 유사도 계수인지 이런 것들을 물어보는 시험 문제가 주로 나오기 때문에 반드시 기억을 하시기 바랍니다.
20:00
:
00:05
~
01:25
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음