남은 문제 : 36

문제 1361

계층적 군집 방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법이다. 다음 중 계층적 군집 분석 결과를 나타내는 도표로 가장 적절한 것은?

보기

1.향상도 곡선
2.ROC 그래프
3.덴드로그램
4.산점도

정답

3

해시
태그

lADsP 완전 정복l 군집분석 _KNmVBI0ZvY	00:06 : 군집분석의 개념을 한번 먼저 확인을 해보겠습니다. 00:09 : 군집분석은 각 객체, 대상의 유사성을 측정하여 유사성이 높은 집단, 대상 집단을 분류하고 00:20 : 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상위성을 규명하는 분석 방법이다. 라고 설명을 하고 있습니다. 00:27 : 여기서 여러분들이 집중해서 보셔야 될 단어는 유사성이에요. 00:38 : 군집분석 같은 경우는 비슷한 데이터들끼리 뭉쳐준다. 라고 생각을 해주시면 됩니다. 00:45 : 앞서 저희가 배운 분석 방법들 있죠. 만약에 로지스틱 회귀분석, 그다음에 의사결정나무, 앙상블, 그다음에 인공신경망. 이런 분석 방법들은 00:58 : 분류분석의 한 방법으로써 supervised learning인 지도 학습의 한 부분이었습니다. 01:08 : 그런데 이제부터 배워 볼 군집분석 같은 경우는 unsupervised learning. 비지도 학습에 포함이 돼요. 01:14 : 이 supervised learning. 지도 학습에는 이 데이터들이 모두 라벨이 있다고 했었어요. 01:23 : 라벨이 있어서 그 라벨로 맞출 수 있게 분류를 한다든지 아니면 그 값으로 예측을 할 수 있게 하는 방법이 01:30 : supervised learning. 지도 학습이라고 말씀을 드렸지만, 군집분석 같은 경우는 이런 라벨 정보가 없습니다. 01:37 : 라벨 정보가 없는 상태에서 비슷한 성질을 가진 데이터들 비슷하고 유사한 데이터. 01:42 : 그래서 데이터들끼리 유사성을 측정한다. 라고 생각을 하시면 돼요. 앞서서 한번 간단하게 예시를 한번 드렸는데 01:54 : 만약에 어느 지역에 고등학교 남고에서 학생들에 대해서 키와 몸무게를 조사를 했습니다. 02:06 : 몸무게를 조사를 그냥 하고 이거를 좌표평면에 펼쳤다고 생각을 해볼게요. 그럼, x축에는 키가 되고, y축에는 몸무게가 됩니다. 02:16 : 그럴 때 데이터들이 키가 170인데 몸무게가 80인 사람도 있을 수 있고, 각각 데이터가 이렇게 뿌려지는 것을 볼 수 있을 거예요. 02:25 : 그런데 이런 식으로 뿌려져 있는 데이터에서 이 정도의 모여 있는 데이터와, 이렇게 모여있는 데이터, 이렇게 모여있는 데이터. 02:36 : 이런 식으로 데이터끼리 비슷해서 하나의 군집으로 묶어줄 수 있는 특성을 보이더라. 라고 판단을 하실 수 있을 거예요. 02:45 : 그래서 유사성이 높은 대상 집단으로 분류를 합니다. 02:50 : 그래서 이 각각 집단에 대한 특성을 한번 파악을 해 보는 거예요. 그 데이터 안에서, 이 데이터가 이런 특징을 가졌기 때문에 02:58 : 이 집단은 어떤 특징을 가지고 있구나. 이게 키와 몸무게로도 가능하지만 보통 홈페이지에서 구매 패턴 이런 것들을 파악하고 03:10 : 구매 금액 이런 것들을 파악을 해서 멤버십이라든지, 이런 거 제공도 보통 이렇게 군집분석을 통해서도 진행을 할 수 있다. 라는 점 기억해 주시면 될 것 같아요. 03:22 : 그래서 여기 군집에 속한 객체들의 유사성, 그리고 다른 군집들과의 상의성을 찾아내는 방법 그걸 군집분석이다. 라고 생각을 하시고 03:31 : 이 군집분석은 앞에서 말씀드린 것처럼 unsupervised learning 비지도 학습입니다. 03:39 : 이 부분 반드시 기억을 하세요. 비지도 학습의 하나인 군집분석에 대해서 학습을 해 볼 겁니다. 03:46 : 그러면 군집분석에 대해서 한번 자세히 한번 확인을 해 볼게요. 이 군집분석 같은 경우에 개요를 조금 더 보고 넘어가 보겠습니다. 03:55 : 특성에 따라서 고객을 여러 개의 배타적인 집단 다른 집단으로 나누는 방법을 군집분석이라고 한다고 했죠. 04:05 : 앞에서 그려드린 이 그림에서 각각 집단마다 성질이 다 다르기 때문에, 이 배타적인 집단을 나누는 것을 군집분석이다. 라고 하는 거예요. 04:15 : 그리고 군집의 개수나 구조에 대한 가정없이 데이터로부터 거리를 기준으로 군집화를 유도한다. 라고 합니다. 04:24 : 여기서 데이터의 군집의 개수를 처음에 정하고 하거나, 아니면 정해놓지 않은 상황에서 군집을 하는 거에 따라서 04:32 : 군집분석 방법이 계층적이냐, 아니면 비계층적이냐 이렇게 나눠서 판단을 할 수 있을 겁니다. 04:40 : 군집분석 같은 경우는 가정이 없이 데이터로부터 거리를 기준으로 군집화를 유도합니다. 거리가 매우 중요해요. 04:48 : 거리를 기준으로 군집화를 유도한다. 라는 점 기억을 하시면 됩니다. 그래서 이런 군집분석을 이용해서 어떤 것을 할 수 있느냐 봤더니 04:56 : 마케팅 조사에서 소비자들의 상품구매 행동이나. 어떤 금액, 얼마만큼의 금액으로 제품을 많이 산다든지 05:06 : 아니면 적은 금액의 제품을 많이 산다. 아니면 큰 금액의 제품을 많이 산다. 이런 식으로 상품구매 행동을 파악하거나 05:14 : 아니면 라이프 스타일에 따라서 소비자군을 분류한다. 이게 예전에 나온 건데 신한카드의 코드나인이라고 해서 05:22 : 사람들의 구매 패턴. 이런 것들을 가지고 9가지의 카드로 사람들에게 추천을 해주는 그런 소비자군 분류를 할 수 있는 05:31 : 시장 전략의 수립을 할 수 있다. 이런 특징을 가지고 군집분석을 주로 많이 활용을 하고 있다. 라는 점 기억을 해주시기 바랍니다. 05:41 : 그래서 군집분석의 목적은 데이터를 목적에 따라 적절한 군집으로 나누는 것이 최고의, 최대 목표입니다. 05:51 : 그래서 적절한 군집으로 나눈다. 라는 점 기억을 하시고 05:54 : 각 군집의 특성, 군집 간의 차이를 명확히 하고 분석하는 것이다. 라고 표현을 합니다. 06:00 : 다른 통계분석 방법 중에서 요인분석이라는 것도 있고, 판별분석이란 것도 있습니다. 06:06 : 요인분석 같은 경우는 보통 설문분석에서 많이 사용하는데 설문분석에서 06:11 : 어떤 설문을 했을 때 나온 점수들을 가지고 비슷한 유형의 변수들끼리 묶어주는 그런 방법을 요인분석이라고 하는데 06:21 : 이 요인분석은 유사한 변수들끼리 함께 묶어주는 것이 목적이지 군집분석은 유사한 변수끼리가 아니라 비슷한 데이터끼리 묶어주는 게 주목적이다. 06:31 : 그리고 판별분석 같은 경우는 군집분석과 유사하지만 라벨이 있다고 말씀을 드렸어요. 06:37 : 그래서 사전에 집단이 나누어져 있다는 점이 차이점이다. 라고 기억을 하시면 돼요. 06:43 : 밑에 간단하게 예시가 하나 나와 있습니다. 보시면 이렇게 점들이 막 찍혀 있는데 06:50 : 동그라미인 데이터들도 있고, 세모인 데이터들도 있고, 색깔 있는 x인 데이터도 있습니다. 06:56 : 그래서 이 한 지점이 한 데이터들마다 성질이 다 다르기 때문에 이렇게 한 군집이 이루어질 수도 있고 07:04 : 이렇게 한 군집, 이렇게 한 군집이 이뤄질 수 있다. 그래서 이 각각의 데이터에 특징을 파악하는 게 중요하다. 라고 말씀을 드릴 수 있어요. 07:12 : 그러면 제가 앞에서 한번 말씀드렸는데, 이 군집분석에서 제일 중요한 게 거리라고 했습니다. 07:20 : 유사성을 측정하기 위한 기준이 거리가 돼요. 그러면 이 거리를 어떻게 구하는지도 여러분들이 아셔야 될 거예요. 20:00 :	00:06 ~ 01:14		검수 상태 : 불통
lADsP 완전 정복l 군집분석_거리 29elTUfJgFE	00:05 : 이 화면을 보시면 거리를 구하는 방법들이 나와 있다. 라는 것을 볼 수 있을 거예요. 00:11 : 거리 같은 경우는 유클리드 거리부터 시작해서 표준화 거리, 마할라노비스 거리, 그다음에 쳬비셰프, 맨라탄, 캔버라, 민코우스키 거리 00:25 : 대략적으로 7개 정도의 거리가 있어요. 이 거리의 이름들은 다들 외우고 계셔야 돼요. 00:32 : 이게 어디에 사용되느냐에 따라서 사용되는 거리는 다른데 종류가 총 7가지이고, 이런 거리가 있다. 라는 점을 기억을 하셔야 됩니다. 00:42 : 이런 거리들은 일반적으로 첫 번째는 연속형 변수에 대해서 한번 볼 거예요. 00:47 : 연속형 변수에 대해서 거리를 구할 때는 총 7개의 거리가 있다. 라는 점 기억을 하시고 그다음에 이름은 다들 기억하되 00:56 : 특히 더 잘 기억해야 되는 거리들을 말씀을 드리면 유클리드 거리, 맨하탄 거리. 이 정도는 계산식도 이해를 하고 계셔야 됩니다. 01:08 : 유클리드 거리 같은 경우는 여러분들이 많이 들어보신 거리일 거예요. 데이터 간에 유사성을 측정할 때 많이 사용하는 거리입니다. 01:17 : 그래서 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되지 않은 거리다. 라고 적혀 있습니다. 01:26 : 그래서 거리를 보시면 뒤에 x 콤마 y는 루트 xi-yi에서 xp까지 yp를 마이너스. 01:40 : 했을 때 루트의 결괏값을 전체 다 더했을 때, 그 결괏값이 거리로 나타난다. 라고 기억을 하시면 되고 01:47 : 그다음에 표준화 거리, 마할라노비스 거리, 쳬비셰프 있는데, 유클리드 거리와 맨하탄 거리. 맨하탄 거리 같은 경우는 유클리드 거리와 함께 가장 많이 사용되는 거리예요. 01:57 : 그래서 맨하탄 도시의 건물에서 건물로 가기 위한 최단 거리를 구하기 위해 고안된 거리가 바로 맨하튼 거리다. 라는 점 기억을 해주시기 바랍니다. 02:11 : 그래서 유클리드 거리와 맨하탄 거리 같은 경우는 한번 직접 계산을 한번 해 볼게요. 02:17 : x라는 값과 y라는 값이 있다고 할 때 a, b, c라는 사람이 있습니다. 그래서 2, 5, 그다음에 1, 4, 그다음에 2, 3이라는 좌표 평면에 이렇게 점을 찍어 낼 수 있을 겁니다. 02:32 : 그랬을 때 유클리드 거리를 한번 구해 보면 a와 b 간의 거리를 한번 보면 루트 2-1의 제곱 값 + 5-4의 제곱 값입니다. 그랬을 때 결괏값이. 02:48 : 루트 1+1=루트 2. a와 b 간의 유클리드 거리는 2가 된다. 라는 점 기억을 하실 수 있을 거예요. 02:59 : 그리고 또 유클리드 거리 말고도 직접 구할 수 있는 거리는 보통은 시험에서 맨하탄 거리를 주로 많이 표현을 하더라고요. 03:08 : 그래서 맨하탄 거리를 보시면 절댓값을 x-y에 대한 절댓값을 구한다. 라고 기억을 하시면 돼요. 03:15 : 그래서 x들끼리의 거리를 봤을 때 2-1의 절댓값+5-4의 절댓값을 구했을 때 거리는 2가 된다. 03:26 : 2는 바로 맨하탄 거리다. 라고 기억을 하시면 됩니다. 03:29 : 그래서 이런 식으로 거리를 구할 수 있어요. 그래서 직접 거리를 구하는 시험은 반드시 나오기 때문에 기억을 해 주시기 바랍니다. 03:37 : 보통은 표준화 거리라든지, 쳬비셰프 거리. 쳬비셰프 거리는 괜찮은데 마할라노비스 거리나 표준화 거리 이런 것들은 시험이 나오기 어렵습니다. 03:47 : 캔버라 거리도 그렇고 그런데 민코우스키 거리를 한번 보시면 여기 m 값이 있죠. 03:54 : m이라는 값이 1이 되면 맨하탄 거리가 되고요, m이 2이면 유클리드 거리가 된다. 라는 점 반드시 기억을 하시기 바랍니다. 04:06 : m의 값에 따라서 거리가 바뀐다. 그리고 이거를 따라서 l1 거리 아니면 l2 거리 이렇게 표현도 하고 있다. 라는 점 기억을 해주시기 바랍니다. 04:16 : 그러면 이렇게 하면 시험에 나올 만한 거는 유클리드 거리 구하기, 맨하탄 거리 구하기. 이 정도는 아마 이해를 하실 수 있으실 거예요. 04:26 : 방금 본 거는 연속형 변수에 대해서 한번 확인을 해봤어요. 04:32 : 연속형 변수에 대해서 한번 거리를 봤을 때는 이런 식으로 나타나는데 범주형 변수에 대해서도 저희가 거리를 구할 수 있습니다. 04:41 : 범주형 변수 같은 경우, 우리가 가진 자료가 질적 자료이면 자카드 거리 아니면 코사인 거리를 이용해서 거리를 구할 수 있어요. 04:50 : 그래서 보통 범주형 변수에는 자카드 계수를 통해서 자카드 거리를 구한다거나 04:59 : 코사인 유사도를 통해서 코사인 거리를 구한다. 이런 점을 기억해 주시고요. 05:04 : 그리고 코사인 거리 같은 경우, 이거는 수식을 외워두세요. 여기에 단답이나 아니면 객관식의 물음에 답할 수 있는 수식이 05:17 : 이런 식으로 나오는 경우가 있어요. 그래서 이거에 대해서는 반드시 기억을 하고 계셔야 됩니다. 05:21 : 자카드 계수를 물어보거나 할 수도 있지만, 이거는 직접 계산하는 시험 문제보다는 이런 수식을 보고 어떤 거리인지 05:30 : 어떤 유사도 계수인지 이런 것들을 물어보는 시험 문제가 주로 나오기 때문에 반드시 기억을 하시기 바랍니다. 20:00 :	01:08 ~ 02:28		검수 상태 : 불통
lADsP 완전 정복l 군집분석_거리 29elTUfJgFE	00:05 : 이 화면을 보시면 거리를 구하는 방법들이 나와 있다. 라는 것을 볼 수 있을 거예요. 00:11 : 거리 같은 경우는 유클리드 거리부터 시작해서 표준화 거리, 마할라노비스 거리, 그다음에 쳬비셰프, 맨라탄, 캔버라, 민코우스키 거리 00:25 : 대략적으로 7개 정도의 거리가 있어요. 이 거리의 이름들은 다들 외우고 계셔야 돼요. 00:32 : 이게 어디에 사용되느냐에 따라서 사용되는 거리는 다른데 종류가 총 7가지이고, 이런 거리가 있다. 라는 점을 기억을 하셔야 됩니다. 00:42 : 이런 거리들은 일반적으로 첫 번째는 연속형 변수에 대해서 한번 볼 거예요. 00:47 : 연속형 변수에 대해서 거리를 구할 때는 총 7개의 거리가 있다. 라는 점 기억을 하시고 그다음에 이름은 다들 기억하되 00:56 : 특히 더 잘 기억해야 되는 거리들을 말씀을 드리면 유클리드 거리, 맨하탄 거리. 이 정도는 계산식도 이해를 하고 계셔야 됩니다. 01:08 : 유클리드 거리 같은 경우는 여러분들이 많이 들어보신 거리일 거예요. 데이터 간에 유사성을 측정할 때 많이 사용하는 거리입니다. 01:17 : 그래서 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되지 않은 거리다. 라고 적혀 있습니다. 01:26 : 그래서 거리를 보시면 뒤에 x 콤마 y는 루트 xi-yi에서 xp까지 yp를 마이너스. 01:40 : 했을 때 루트의 결괏값을 전체 다 더했을 때, 그 결괏값이 거리로 나타난다. 라고 기억을 하시면 되고 01:47 : 그다음에 표준화 거리, 마할라노비스 거리, 쳬비셰프 있는데, 유클리드 거리와 맨하탄 거리. 맨하탄 거리 같은 경우는 유클리드 거리와 함께 가장 많이 사용되는 거리예요. 01:57 : 그래서 맨하탄 도시의 건물에서 건물로 가기 위한 최단 거리를 구하기 위해 고안된 거리가 바로 맨하튼 거리다. 라는 점 기억을 해주시기 바랍니다. 02:11 : 그래서 유클리드 거리와 맨하탄 거리 같은 경우는 한번 직접 계산을 한번 해 볼게요. 02:17 : x라는 값과 y라는 값이 있다고 할 때 a, b, c라는 사람이 있습니다. 그래서 2, 5, 그다음에 1, 4, 그다음에 2, 3이라는 좌표 평면에 이렇게 점을 찍어 낼 수 있을 겁니다. 02:32 : 그랬을 때 유클리드 거리를 한번 구해 보면 a와 b 간의 거리를 한번 보면 루트 2-1의 제곱 값 + 5-4의 제곱 값입니다. 그랬을 때 결괏값이. 02:48 : 루트 1+1=루트 2. a와 b 간의 유클리드 거리는 2가 된다. 라는 점 기억을 하실 수 있을 거예요. 02:59 : 그리고 또 유클리드 거리 말고도 직접 구할 수 있는 거리는 보통은 시험에서 맨하탄 거리를 주로 많이 표현을 하더라고요. 03:08 : 그래서 맨하탄 거리를 보시면 절댓값을 x-y에 대한 절댓값을 구한다. 라고 기억을 하시면 돼요. 03:15 : 그래서 x들끼리의 거리를 봤을 때 2-1의 절댓값+5-4의 절댓값을 구했을 때 거리는 2가 된다. 03:26 : 2는 바로 맨하탄 거리다. 라고 기억을 하시면 됩니다. 03:29 : 그래서 이런 식으로 거리를 구할 수 있어요. 그래서 직접 거리를 구하는 시험은 반드시 나오기 때문에 기억을 해 주시기 바랍니다. 03:37 : 보통은 표준화 거리라든지, 쳬비셰프 거리. 쳬비셰프 거리는 괜찮은데 마할라노비스 거리나 표준화 거리 이런 것들은 시험이 나오기 어렵습니다. 03:47 : 캔버라 거리도 그렇고 그런데 민코우스키 거리를 한번 보시면 여기 m 값이 있죠. 03:54 : m이라는 값이 1이 되면 맨하탄 거리가 되고요, m이 2이면 유클리드 거리가 된다. 라는 점 반드시 기억을 하시기 바랍니다. 04:06 : m의 값에 따라서 거리가 바뀐다. 그리고 이거를 따라서 l1 거리 아니면 l2 거리 이렇게 표현도 하고 있다. 라는 점 기억을 해주시기 바랍니다. 04:16 : 그러면 이렇게 하면 시험에 나올 만한 거는 유클리드 거리 구하기, 맨하탄 거리 구하기. 이 정도는 아마 이해를 하실 수 있으실 거예요. 04:26 : 방금 본 거는 연속형 변수에 대해서 한번 확인을 해봤어요. 04:32 : 연속형 변수에 대해서 한번 거리를 봤을 때는 이런 식으로 나타나는데 범주형 변수에 대해서도 저희가 거리를 구할 수 있습니다. 04:41 : 범주형 변수 같은 경우, 우리가 가진 자료가 질적 자료이면 자카드 거리 아니면 코사인 거리를 이용해서 거리를 구할 수 있어요. 04:50 : 그래서 보통 범주형 변수에는 자카드 계수를 통해서 자카드 거리를 구한다거나 04:59 : 코사인 유사도를 통해서 코사인 거리를 구한다. 이런 점을 기억해 주시고요. 05:04 : 그리고 코사인 거리 같은 경우, 이거는 수식을 외워두세요. 여기에 단답이나 아니면 객관식의 물음에 답할 수 있는 수식이 05:17 : 이런 식으로 나오는 경우가 있어요. 그래서 이거에 대해서는 반드시 기억을 하고 계셔야 됩니다. 05:21 : 자카드 계수를 물어보거나 할 수도 있지만, 이거는 직접 계산하는 시험 문제보다는 이런 수식을 보고 어떤 거리인지 05:30 : 어떤 유사도 계수인지 이런 것들을 물어보는 시험 문제가 주로 나오기 때문에 반드시 기억을 하시기 바랍니다. 20:00 :	00:05 ~ 01:25		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :