남은 문제 : 36
문제 1379
다음 군집화 방법 중 DBSCAN, DENCLUE 기법 등 임의적인(Arbitrarity) 모양의 군집 탐색에 가장 효과적인 방법은?
보기
1.밀도기반 군집
2.모형기반 군집
3.격자기반 군집
4.커널기반 군집
정답
1
해시
태그
lADsP 완전 정복l 군집분석
_KNmVBI0ZvY
00:06
: 군집분석의 개념을 한번 먼저 확인을 해보겠습니다.
00:09
: 군집분석은 각 객체, 대상의 유사성을 측정하여 유사성이 높은 집단, 대상 집단을 분류하고
00:20
: 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상위성을 규명하는 분석 방법이다. 라고 설명을 하고 있습니다.
00:27
: 여기서 여러분들이 집중해서 보셔야 될 단어는 유사성이에요.
00:38
: 군집분석 같은 경우는 비슷한 데이터들끼리 뭉쳐준다. 라고 생각을 해주시면 됩니다.
00:45
: 앞서 저희가 배운 분석 방법들 있죠. 만약에 로지스틱 회귀분석, 그다음에 의사결정나무, 앙상블, 그다음에 인공신경망. 이런 분석 방법들은
00:58
: 분류분석의 한 방법으로써 supervised learning인 지도 학습의 한 부분이었습니다.
01:08
: 그런데 이제부터 배워 볼 군집분석 같은 경우는 unsupervised learning. 비지도 학습에 포함이 돼요.
01:14
: 이 supervised learning. 지도 학습에는 이 데이터들이 모두 라벨이 있다고 했었어요.
01:23
: 라벨이 있어서 그 라벨로 맞출 수 있게 분류를 한다든지 아니면 그 값으로 예측을 할 수 있게 하는 방법이
01:30
: supervised learning. 지도 학습이라고 말씀을 드렸지만, 군집분석 같은 경우는 이런 라벨 정보가 없습니다.
01:37
: 라벨 정보가 없는 상태에서 비슷한 성질을 가진 데이터들 비슷하고 유사한 데이터.
01:42
: 그래서 데이터들끼리 유사성을 측정한다. 라고 생각을 하시면 돼요. 앞서서 한번 간단하게 예시를 한번 드렸는데
01:54
: 만약에 어느 지역에 고등학교 남고에서 학생들에 대해서 키와 몸무게를 조사를 했습니다.
02:06
: 몸무게를 조사를 그냥 하고 이거를 좌표평면에 펼쳤다고 생각을 해볼게요. 그럼, x축에는 키가 되고, y축에는 몸무게가 됩니다.
02:16
: 그럴 때 데이터들이 키가 170인데 몸무게가 80인 사람도 있을 수 있고, 각각 데이터가 이렇게 뿌려지는 것을 볼 수 있을 거예요.
02:25
: 그런데 이런 식으로 뿌려져 있는 데이터에서 이 정도의 모여 있는 데이터와, 이렇게 모여있는 데이터, 이렇게 모여있는 데이터.
02:36
: 이런 식으로 데이터끼리 비슷해서 하나의 군집으로 묶어줄 수 있는 특성을 보이더라. 라고 판단을 하실 수 있을 거예요.
02:45
: 그래서 유사성이 높은 대상 집단으로 분류를 합니다.
02:50
: 그래서 이 각각 집단에 대한 특성을 한번 파악을 해 보는 거예요. 그 데이터 안에서, 이 데이터가 이런 특징을 가졌기 때문에
02:58
: 이 집단은 어떤 특징을 가지고 있구나. 이게 키와 몸무게로도 가능하지만 보통 홈페이지에서 구매 패턴 이런 것들을 파악하고
03:10
: 구매 금액 이런 것들을 파악을 해서 멤버십이라든지, 이런 거 제공도 보통 이렇게 군집분석을 통해서도 진행을 할 수 있다. 라는 점 기억해 주시면 될 것 같아요.
03:22
: 그래서 여기 군집에 속한 객체들의 유사성, 그리고 다른 군집들과의 상의성을 찾아내는 방법 그걸 군집분석이다. 라고 생각을 하시고
03:31
: 이 군집분석은 앞에서 말씀드린 것처럼 unsupervised learning 비지도 학습입니다.
03:39
: 이 부분 반드시 기억을 하세요. 비지도 학습의 하나인 군집분석에 대해서 학습을 해 볼 겁니다.
03:46
: 그러면 군집분석에 대해서 한번 자세히 한번 확인을 해 볼게요. 이 군집분석 같은 경우에 개요를 조금 더 보고 넘어가 보겠습니다.
03:55
: 특성에 따라서 고객을 여러 개의 배타적인 집단 다른 집단으로 나누는 방법을 군집분석이라고 한다고 했죠.
04:05
: 앞에서 그려드린 이 그림에서 각각 집단마다 성질이 다 다르기 때문에, 이 배타적인 집단을 나누는 것을 군집분석이다. 라고 하는 거예요.
04:15
: 그리고 군집의 개수나 구조에 대한 가정없이 데이터로부터 거리를 기준으로 군집화를 유도한다. 라고 합니다.
04:24
: 여기서 데이터의 군집의 개수를 처음에 정하고 하거나, 아니면 정해놓지 않은 상황에서 군집을 하는 거에 따라서
04:32
: 군집분석 방법이 계층적이냐, 아니면 비계층적이냐 이렇게 나눠서 판단을 할 수 있을 겁니다.
04:40
: 군집분석 같은 경우는 가정이 없이 데이터로부터 거리를 기준으로 군집화를 유도합니다. 거리가 매우 중요해요.
04:48
: 거리를 기준으로 군집화를 유도한다. 라는 점 기억을 하시면 됩니다. 그래서 이런 군집분석을 이용해서 어떤 것을 할 수 있느냐 봤더니
04:56
: 마케팅 조사에서 소비자들의 상품구매 행동이나. 어떤 금액, 얼마만큼의 금액으로 제품을 많이 산다든지
05:06
: 아니면 적은 금액의 제품을 많이 산다. 아니면 큰 금액의 제품을 많이 산다. 이런 식으로 상품구매 행동을 파악하거나
05:14
: 아니면 라이프 스타일에 따라서 소비자군을 분류한다. 이게 예전에 나온 건데 신한카드의 코드나인이라고 해서
05:22
: 사람들의 구매 패턴. 이런 것들을 가지고 9가지의 카드로 사람들에게 추천을 해주는 그런 소비자군 분류를 할 수 있는
05:31
: 시장 전략의 수립을 할 수 있다. 이런 특징을 가지고 군집분석을 주로 많이 활용을 하고 있다. 라는 점 기억을 해주시기 바랍니다.
05:41
: 그래서 군집분석의 목적은 데이터를 목적에 따라 적절한 군집으로 나누는 것이 최고의, 최대 목표입니다.
05:51
: 그래서 적절한 군집으로 나눈다. 라는 점 기억을 하시고
05:54
: 각 군집의 특성, 군집 간의 차이를 명확히 하고 분석하는 것이다. 라고 표현을 합니다.
06:00
: 다른 통계분석 방법 중에서 요인분석이라는 것도 있고, 판별분석이란 것도 있습니다.
06:06
: 요인분석 같은 경우는 보통 설문분석에서 많이 사용하는데 설문분석에서
06:11
: 어떤 설문을 했을 때 나온 점수들을 가지고 비슷한 유형의 변수들끼리 묶어주는 그런 방법을 요인분석이라고 하는데
06:21
: 이 요인분석은 유사한 변수들끼리 함께 묶어주는 것이 목적이지 군집분석은 유사한 변수끼리가 아니라 비슷한 데이터끼리 묶어주는 게 주목적이다.
06:31
: 그리고 판별분석 같은 경우는 군집분석과 유사하지만 라벨이 있다고 말씀을 드렸어요.
06:37
: 그래서 사전에 집단이 나누어져 있다는 점이 차이점이다. 라고 기억을 하시면 돼요.
06:43
: 밑에 간단하게 예시가 하나 나와 있습니다. 보시면 이렇게 점들이 막 찍혀 있는데
06:50
: 동그라미인 데이터들도 있고, 세모인 데이터들도 있고, 색깔 있는 x인 데이터도 있습니다.
06:56
: 그래서 이 한 지점이 한 데이터들마다 성질이 다 다르기 때문에 이렇게 한 군집이 이루어질 수도 있고
07:04
: 이렇게 한 군집, 이렇게 한 군집이 이뤄질 수 있다. 그래서 이 각각의 데이터에 특징을 파악하는 게 중요하다. 라고 말씀을 드릴 수 있어요.
07:12
: 그러면 제가 앞에서 한번 말씀드렸는데, 이 군집분석에서 제일 중요한 게 거리라고 했습니다.
07:20
: 유사성을 측정하기 위한 기준이 거리가 돼요. 그러면 이 거리를 어떻게 구하는지도 여러분들이 아셔야 될 거예요.
20:00
:
01:17
~
02:20
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 군집분석_거리
29elTUfJgFE
00:05
: 이 화면을 보시면 거리를 구하는 방법들이 나와 있다. 라는 것을 볼 수 있을 거예요.
00:11
: 거리 같은 경우는 유클리드 거리부터 시작해서 표준화 거리, 마할라노비스 거리, 그다음에 쳬비셰프, 맨라탄, 캔버라, 민코우스키 거리
00:25
: 대략적으로 7개 정도의 거리가 있어요. 이 거리의 이름들은 다들 외우고 계셔야 돼요.
00:32
: 이게 어디에 사용되느냐에 따라서 사용되는 거리는 다른데 종류가 총 7가지이고, 이런 거리가 있다. 라는 점을 기억을 하셔야 됩니다.
00:42
: 이런 거리들은 일반적으로 첫 번째는 연속형 변수에 대해서 한번 볼 거예요.
00:47
: 연속형 변수에 대해서 거리를 구할 때는 총 7개의 거리가 있다. 라는 점 기억을 하시고 그다음에 이름은 다들 기억하되
00:56
: 특히 더 잘 기억해야 되는 거리들을 말씀을 드리면 유클리드 거리, 맨하탄 거리. 이 정도는 계산식도 이해를 하고 계셔야 됩니다.
01:08
: 유클리드 거리 같은 경우는 여러분들이 많이 들어보신 거리일 거예요. 데이터 간에 유사성을 측정할 때 많이 사용하는 거리입니다.
01:17
: 그래서 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되지 않은 거리다. 라고 적혀 있습니다.
01:26
: 그래서 거리를 보시면 뒤에 x 콤마 y는 루트 xi-yi에서 xp까지 yp를 마이너스.
01:40
: 했을 때 루트의 결괏값을 전체 다 더했을 때, 그 결괏값이 거리로 나타난다. 라고 기억을 하시면 되고
01:47
: 그다음에 표준화 거리, 마할라노비스 거리, 쳬비셰프 있는데, 유클리드 거리와 맨하탄 거리. 맨하탄 거리 같은 경우는 유클리드 거리와 함께 가장 많이 사용되는 거리예요.
01:57
: 그래서 맨하탄 도시의 건물에서 건물로 가기 위한 최단 거리를 구하기 위해 고안된 거리가 바로 맨하튼 거리다. 라는 점 기억을 해주시기 바랍니다.
02:11
: 그래서 유클리드 거리와 맨하탄 거리 같은 경우는 한번 직접 계산을 한번 해 볼게요.
02:17
: x라는 값과 y라는 값이 있다고 할 때 a, b, c라는 사람이 있습니다. 그래서 2, 5, 그다음에 1, 4, 그다음에 2, 3이라는 좌표 평면에 이렇게 점을 찍어 낼 수 있을 겁니다.
02:32
: 그랬을 때 유클리드 거리를 한번 구해 보면 a와 b 간의 거리를 한번 보면 루트 2-1의 제곱 값 + 5-4의 제곱 값입니다. 그랬을 때 결괏값이.
02:48
: 루트 1+1=루트 2. a와 b 간의 유클리드 거리는 2가 된다. 라는 점 기억을 하실 수 있을 거예요.
02:59
: 그리고 또 유클리드 거리 말고도 직접 구할 수 있는 거리는 보통은 시험에서 맨하탄 거리를 주로 많이 표현을 하더라고요.
03:08
: 그래서 맨하탄 거리를 보시면 절댓값을 x-y에 대한 절댓값을 구한다. 라고 기억을 하시면 돼요.
03:15
: 그래서 x들끼리의 거리를 봤을 때 2-1의 절댓값+5-4의 절댓값을 구했을 때 거리는 2가 된다.
03:26
: 2는 바로 맨하탄 거리다. 라고 기억을 하시면 됩니다.
03:29
: 그래서 이런 식으로 거리를 구할 수 있어요. 그래서 직접 거리를 구하는 시험은 반드시 나오기 때문에 기억을 해 주시기 바랍니다.
03:37
: 보통은 표준화 거리라든지, 쳬비셰프 거리. 쳬비셰프 거리는 괜찮은데 마할라노비스 거리나 표준화 거리 이런 것들은 시험이 나오기 어렵습니다.
03:47
: 캔버라 거리도 그렇고 그런데 민코우스키 거리를 한번 보시면 여기 m 값이 있죠.
03:54
: m이라는 값이 1이 되면 맨하탄 거리가 되고요, m이 2이면 유클리드 거리가 된다. 라는 점 반드시 기억을 하시기 바랍니다.
04:06
: m의 값에 따라서 거리가 바뀐다. 그리고 이거를 따라서 l1 거리 아니면 l2 거리 이렇게 표현도 하고 있다. 라는 점 기억을 해주시기 바랍니다.
04:16
: 그러면 이렇게 하면 시험에 나올 만한 거는 유클리드 거리 구하기, 맨하탄 거리 구하기. 이 정도는 아마 이해를 하실 수 있으실 거예요.
04:26
: 방금 본 거는 연속형 변수에 대해서 한번 확인을 해봤어요.
04:32
: 연속형 변수에 대해서 한번 거리를 봤을 때는 이런 식으로 나타나는데 범주형 변수에 대해서도 저희가 거리를 구할 수 있습니다.
04:41
: 범주형 변수 같은 경우, 우리가 가진 자료가 질적 자료이면 자카드 거리 아니면 코사인 거리를 이용해서 거리를 구할 수 있어요.
04:50
: 그래서 보통 범주형 변수에는 자카드 계수를 통해서 자카드 거리를 구한다거나
04:59
: 코사인 유사도를 통해서 코사인 거리를 구한다. 이런 점을 기억해 주시고요.
05:04
: 그리고 코사인 거리 같은 경우, 이거는 수식을 외워두세요. 여기에 단답이나 아니면 객관식의 물음에 답할 수 있는 수식이
05:17
: 이런 식으로 나오는 경우가 있어요. 그래서 이거에 대해서는 반드시 기억을 하고 계셔야 됩니다.
05:21
: 자카드 계수를 물어보거나 할 수도 있지만, 이거는 직접 계산하는 시험 문제보다는 이런 수식을 보고 어떤 거리인지
05:30
: 어떤 유사도 계수인지 이런 것들을 물어보는 시험 문제가 주로 나오기 때문에 반드시 기억을 하시기 바랍니다.
20:00
:
00:05
~
02:11
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 계층적 군집방법_1
nKGYaPWBhyA
00:05
: 거리를 이렇게 구하는 방법에 대해서 알아봤는데 앞에서 군집의 개수나, 구조에 대한 가정이 없이 이 부분을 설명을 할 때
00:15
: 계층적 군집이 있다. 아니면 비계층적이 있다. 라고 말씀을 드렸을 거예요.
00:22
: 그러면 계층적 군집분석 방법에 대해서 먼저 알아보고, 비계층 군집분석 방법도 한번 알아보도록 하겠습니다.
00:32
: 계층적 군집분석 방법 같은 경우는 n개의 군집으로 시작해서 점차 군집의 개수를 줄여나가는 방법이다. 라고 적혀 있습니다.
00:41
: 그래서 hierarchical clustering이다. 라고 표현을 해요. 그래서 가장 가까운 것들끼리 먼저 구하고요. 군집을.
00:48
: 그리고 그다음에 가까운 것들 군집, 그다음 가까운 군집. 이런 식으로 군집의 개수를 점차 줄여나가는 방법이다. 라고 합니다.
00:56
: 그래서 n개의 군집은 n이 거의 확정이 처음에 안 돼요. 그런데 비계층 같은 경우는 n의 개수를 정해주고 시작을 한다. 라는 점 차이점이 있다. 라는 거 기억을 해주시면 돼요.
01:09
: 그래서 이 방법에 대해서는 최단연결법부터 와드연결법까지 있습니다.
01:15
: 최단연결법, 최장연결법, 평균연결법, 와드연결법 이거에 대한 개념은 반드시 암기를 하고 계시고.
01:24
: 특히 와드연결법 같은 경우는 개념을 묻는 문제가 시험에 나온 적이 많기 때문에 반드시 어떤 방법이다. 라는 점을 기억을 하시기 바랍니다.
01:35
: 그러면 최단연결법부터 최장, 평균연결법까지는 이런 것들은 개념보다는 시험 문제에서 직접 구하거나 이런 것들이 나올 수 있는데
01:46
: 와드연결법은 구하는 건 직접 시험에 안 나와요. 그래서 이 세 가지 방법에 대해서는 한번 직접 구해 보는 시간을 가질 수 있도록 하겠습니다.
01:54
: 개념이 이렇게 나와 있는데 그림을 보면서 한번 설명을 드리면 쉽게 이해를 하실 거예요.
02:00
: 최단연결법의 예시를 한번 보고 개념을 설명을 드리겠습니다. 보시면 제일 첫 번째 왼쪽 위에 그림을 보시면
02:09
: 이렇게 a부터 e라는 점에 대해서 좌푯값이 이렇게 x1과 x2에 대해서 값이 주어져 있습니다.
02:17
: 그래서 1 콤마 4, 2 콤마 1, 4 콤마 6, 4 콤마 3, 5 콤마 1 이런 값들이 주어져 있고요.
02:24
: 그래서 그거를 좌표평면에 나타냈을 때는 이런 식으로 나타낸다. 라고 이해하실 수 있을 거예요.
02:31
: 여기까지 먼저 보시고 그러면 이제 점들끼리의 거리를 한번 계산을 해 볼게요.
02:39
: 그래서 a와 b 간의 거리, a와 c 간의 거리, a와 d 간의 거리, a와 e 간의 거리를 한번 구해보면
02:47
: 1-2 이거는 유클리드로 한번 구해볼게요. 거리로 한번 구했을 때 1-2는 1이 되겠죠.
02:54
: 4-1은 3이 되는데 제곱값을 했을 때 9가 되기 때문에 10이 될 겁니다. 그냥 10이 아니라 루트 10이겠죠. 그런데 밑에 보시면
03:05
: a와 b 간의 거리가 10으로 나타나 있어요. 여기서는 보기 편하게 보기가 힘들었어요. 이걸 루트를 제거한 표현으로 한다는 점 기억을 해주시기 바랍니다.
03:17
: a와 b 간의 거리, 그다음에 a와 c, a와 d, a와 e 간의 거리를 이런 식으로 다 구해보면 루트를 제외하고 이런 식으로 값이 나올 거고요.
03:29
: 그러면은 b와 c, b와 d, b와 e 각각에 대해서 이렇게 거리를 한번 다 구해 볼 수 있을 거예요.
03:38
: 그러면 아래처럼 이렇게 거리 행렬이 나타나게 될 겁니다. 이렇게 거리 행렬이 나오게 되면
03:49
: 첫 번째는 이 점들 사이에서 가장 가까운 점을 선택을 해요.
03:55
: 점들끼리 봤을 때 제일 가까운 군집을 하나 묶어줍니다. 그래서 봤을 때 제일 작은 값인 5라는 값이 있어요.
04:03
: 그래서 d와 e를 하나의 군집으로 묶어줍니다.
04:07
: 그래서 하나로 묶게 되고 이게 하나의 그룹이 되면, 이제 다시 다음 거리의 행렬을 한번 구하게 돼요.
04:15
: 그래서 그다음으로 가까운 거리를 구하기 위해서 다시 거리 행렬을 구할 건데
04:22
: a와 d, e에 대한 거리를 한번 구해 볼게요
04:27
: a와 d, e 거리를 구할 건데 a와 d, e에 대한 거리. 이거를 구하는데 이전에 a와 b라든지 a와 c 같은 경우는 거리를 다 구해놨죠.
04:40
: 그래서 그대로 연결이 되는데 a와 d, e의 거리를 구할 건데 a와 가장 가까운 d로 구할 거냐
04:48
: 아니면 a와 가장 먼 e로 구할 거냐, 아니면 두 점의 평균값으로 구할 거냐에 따라서
04:55
: 최단연결법을 할 거냐, 최장연결법을 할 거냐, 평균연결법을 할 거냐. 이런 식으로 접근을 하는 게
05:05
: 계층적 군집방법이다. 라고 이해를 하시면 돼요. 그래서 보시면 최단연결법은 거리가 가장 가까운 데이터를 묶어서 군집을 형성한다.
05:16
: 그리고 군집과 군집 간의 또는 데이터와의 거리를 계산 시 최단 거리를 계산하는 것이 바로 최단연결법이고요.
05:27
: 군집과 군집 또는 데이터와의 거리를 계산할 때 최장거리로 계산하는 것은 최장.
05:33
: 평균 거리로 연결하는 것은 평균연결법이다. 라고 이해를 하시면 됩니다.
05:42
: 다음, 이 그림 보시면 최단연결법이기 때문에 a라는 값과 가장 가까운 값인 b. 이거를 선택해서
05:54
: a라는 값과 가까운 게 아니라 b라는 값과 d, e라는 값이 가장 가깝기 때문에 b, d, e를 하나의 군집으로 또 묶게 됩니다.
06:04
: a와 c에 대해서 거리를 구하면 또 이런 거리행렬이 생기고요. 그래서 그중에서 또 가까운 9를 선택을 해서
06:13
: c와 b, d, e를 하나의 군집으로 묶고 마지막으로 a와 c, b, d, e를 하나의 군집으로 묶으면서 마무리를 할 거예요.
06:24
: 이 덴드로그램을 한번 보면 이렇게 군집이 거리행렬을 통해서 이루어진 것을 한눈에 확인을 하실 수가 있을 거예요.
06:32
: 자 가장 먼저 d와 e라는 값이 하나의 군집이 됐다는 것을 확인할 수 있고, 그다음에 b라는 값이 하나의 군집이 되었죠.
06:44
: 그리고 c라는 값과 하나의 군집이 되었습니다.
06:47
: 그래서 여기 c. 그리고 마지막으로 a와 하나의 군집이 되었어요.
06:52
: 이런 식으로 전체가 하나의 군집이 되는데, 처음에 가까웠던 d, e가 먼저, 그다음에 b, c, a 이런 식으로 hierarchical 하게 계층적으로 표현을 할 거예요.
07:06
: 그래서 계층적 군집분석을 하고 여기서 시험 문제에 나오는 게, 이 덴드로그램이라고 표현하는 이 그림에서 군집을 두 개로 나누겠다.
07:16
: 두 개로 나누겠다면 이 선을 기준으로 두 개로 나누면 a라는 집단 하나 c, b, d, e라는 집단 하나. 아니면 3개
07:25
: a라는 집단 하나, c라는 집단 하나, b, d, e가 하나 이런 식으로 군집을 나눌 수 있을 거예요.
07:32
: 그래서 이거는 2군집, 그리고 3군집, 4군집으로 위해서는 이렇게 나누면 4군집. 이런 식으로 군집으로 나누는 것을 시각적으로
07:42
: 볼 수 있는 게 덴드로그램이란 것도 있다. 라는 점 기억을 하시기 바랍니다
20:00
:
01:05
~
02:06
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음