남은 문제 : 36
문제 1326
다음 중 반응 변수가 범주형인 경우 예측모형의 주목적으로 가장 적절한 것은?
보기
1.연관 분석
2.분류
3.시뮬레이션
4.최적화
정답
2
해시
태그
lADsP 완전 정복l 데이터 마이닝 분석 방법
oEF1Eeqw20s
00:05
: 그러면 여기서 데이터 마이닝 분석 방법에 대해서 저희가 세부적으로 한번 확인을 해 볼게요.
00:10
: 반드시 기억을 하셔야 되는 게 supervised learning이라는 게 있고요. unsupervised learning이라는 게 있습니다.
00:20
: supervised learning 같은 경우는 라벨이 있다. 라고 생각을 하시면 돼요.
00:30
: 여기서 말하는 라벨이란 게 무엇이냐면 바로 목표변수인 거예요.
00:36
: 목표변수가 있냐, 없냐에 따라서 supervised learning 아니면 unsupervised learning으로 분류를 할 수 있어요.
00:45
: 목표변수에 대해서 간략하게 말씀을 드리면 이전에 제가 설명을 해드렸던 것처럼 은행에 대해서 한번 말씀을 드릴게요.
00:53
: 홍길동이라는 사람이 대출 여부를 한번 확인을 할 겁니다. 그런데 거기에 필요한 어떤 데이터들이 있을 거예요.
01:01
: 이런 데이터들에 대해서 어떤 값들이 a라는 값도 있고, b, c, d, e, f. 라는 값들이 있을 겁니다.
01:10
: 이런 것들을 통해서 이 홍길동이라는 사람이 대출을 할 수 있다. O 또는 x라는 값이 있을 거예요.
01:20
: 이 모형의 목적변수는 이 모형의 목적은 대출 여부를 판단하는 거죠. 그래서 이렇게
01:30
: 데이터에서 목적 여부가 목적변수가 있다면 이거는 supervised learning이라고 할 수 있습니다.
01:37
: 근데 데이터 중에서 이런 대출 여부가 없는 경우가 있어요.
01:42
: 만약에 a라는 지역에서 고등학교 학생들에 대해서 몸무게와 키만 조사했다고 할게요.
01:49
: 그러면 a라는 학생, b라는 학생, c라는 학생, d라는 학생 해서 이름이 있을 수 있고, 그다음에 키, 몸무게가 있습니다.
01:59
: 어떤 정보들이 다 있을 겁니다. 이런 식으로 되어 있는데 여기서는 그냥 분석을 하는데 이런 것들을 군집으로 한번 묶어보고 싶어요.
02:09
: 그래서 군집으로 묶었을 때는 이런 식으로 나타나서 점들이 이렇게 나타날 겁니다.
02:15
: x축에는 키가 될 거고요, y축에는 몸무게가 될 겁니다. 이런 식으로 데이터가 나타나는데 이렇게 특성을 가진 군집들이 생성된다고 해요.
02:26
: 처음에 아까 전에 그렸던 키, 몸무게, 두 가지 데이터만 가지고 이런 좌표 평면 안에
02:35
: 그래프를 하나 그렸는데 이렇게 학생들에 대한 특성을 이 그래프를 통해서 확인을 할 수 있을 거예요.
02:42
: 근데 저희가 가지고 있었던 데이터 같은 경우는 이름이라든지 키, 몸무게 이런 것들을 밖에 없었어요.
02:50
: 목표변수는 없는데 이렇게 그래프를 그리고 군집을 했을 때는 특성들을 찾아볼 수가 있을 겁니다.
02:58
: 그래서 처음에 이런 목표변수가 없는 것. 이거를 unsupervised learning이라고 하고 밑에처럼 목표변수가 있는 것을 supervised learning이라고 한다. 반드시 기억하셔야 합니다.
03:11
: 이거는 목표가 있고, 없고에 따라서 사용할 수 있는 모형 자체가 다르기 때문에 unsupervised learning, supervised learning 반드시 기억하시기 바랍니다.
03:20
: 그러면 supervised learning하고 unsupervised learning의 어떤 분석 방법론들이 있는지 한번 확인해 볼 수 있도록 하겠습니다.
03:23
: 보시면 unsupervised learning 같은 경우 먼저 설명해 드릴게요.
03:33
: unsupervised learning 같은 경우는 OLAP 1과목에서 배웠던 OLAP라는 것도 있고, 아니면 연관규칙발견이라는 게 있습니다.
03:44
: Market Basket 아니면 Association Rule Discovery. 만약에 A라는 제품을 샀을 때, 이 사람은 B라는 제품도 살 것이야. 라는 것들을 예측하는 이런 연관규칙발견이 있고요.
03:58
: 두 번째로는 군집분석이라는 게 있습니다. 군집분석은 앞에서 말씀드린 것처럼 이런 방법이에요.
04:05
: 키랑 몸무게에 따라서 군집을 묶어 줄 거예요. 키도 작고 몸무게도 작은 학생들에 대해서는 어떤 특징을 가졌기 때문에 어떤 것들을 해줘야 한다.
04:14
: 키는 큰데 몸무게가 낮은 애들은 몸무게를 좀 더 늘려야 된다. 그런 특성을 발견할 수 있는 거예요.
04:21
: 그래서 비슷한 것들끼리 묶어주는 게 군집분석이다.라고 생각해 주시면 됩니다.
04:28
: 그중에서 가장 많이 사용되는 게 k-means clustering이라는 게 것이 있습니다.
04:33
: 그리고 세 번째 나오는 이 self organization map(SOM) 같은 경우는 군집 분석에 하나의 방법으로
04:42
: 인공신경망을 기반으로 한 비지도 학습에 대해서 나타날 수 있는 군집분석 방법이다.
04:48
: 이거에 대해서 자세한 방법은 뒤에 군집분석을 할 때 제가 한번 설명을 드릴 수 있도록 하겠습니다.
04:56
: 자 그러면 supervised learning 같은 경우는 어떤 것들이 있냐? 의사결정나무라는 것이 있어요.
05:03
: 어떤 값에 대해서 이것을 계속 분리해 나갑니다. 나무 형태로 이렇게 만들어가는 것을.
05:10
: 의사결정나무. 계층적으로 내려가면서 위계질서가 있는 이런 형태로 모형을 만들어 나가는 것을 의사결정나무라고 표현을 해요.
05:20
: 그래서 의사결정나무라는 방법도 있고 인공신경망 이거는 인간의 뇌를 형상화해서 만들어낸 그런 분석 방법. 요즘에도 아주 핫한 분석 방법이죠.
05:32
: 그리고 판별분석. 군집분석과 비슷한데 라벨이 있는 군집분석이에요.
05:39
: 그리고 일반화선형 모형에서는 이렇게 회귀분석이라든지, 아니면 로지스틱 회귀분석 그리고 사례기반 추론 Case-Based Reasoning. 이런 방법들이
05:50
: supervised learning에 해당하는 분석 방법이다. 라고 기억을 하시기 바랍니다.
20:00
:
03:20
~
05:10
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 분석 목적에 따른 유형과 기법
r4BZ8jBtfJk
00:06
: 분석 목적에 따른 유형과 기법으로도 볼 수 있습니다. 분석 목적에 따라서 나눌 수 있어요.
00:12
: 목적이 예측이냐, 설명이냐에 따라서 유형과 기법이 나눠집니다.
00:21
: 보통 예측으로 하게 된다면 작금 유형이 분류를 찾는 겁니다.
00:26
: classification을 주로 진행을 할 거예요. 설명을 보시면 가장 많이 사용되는 작업입니다.
00:34
: 데이터 마이닝에서 가장 많이 사용되는 작업으로서 분류를 주로 많이 해요.
00:41
: 그래서 과거의 데이터로부터 고객 특성을 찾아내 분류모형을 만들어 내고 이를 토대로 새로운 레코드의 결괏값을 예측합니다.
00:51
: 그래서 목표 마케팅이나 고객 신용평가 모형에 활용이 된다. 라고 적혀 있어요.
01:00
: 사용 기법은 주로 회귀분석, 판별분석, 신경망, 의사결정론 보시면 supervised learning이에요.
01:14
: supervised learning은 보통 지도학습이라고도 표현합니다. 지도학습 방법론들이 보통 예측에 들어갑니다.
01:24
: 홍길동이라는 사람이 대출 여부를 확인한다고 했어요.
01:27
: 여부를 보는데 각각 데이터가 있는데 이런 데이터가 있으니까 이 사람이 대출이 된다고 합니다. 그럼 이런 정보들이 엄청 많이 있을 거예요
01:37
: 이런 정보를 가지고 저희가 데이터 마이닝 모형을 만들었다고 칩시다. 그러면은 김철수라는 사람이 어떤 정보를 가지고 있어서 데이터를 입력했어요.
01:50
: 했을 때, 결국에는 대출 여부를 확인할 겁니다. 그래서 결과적으로 되는지, 안되는지를 판단을 할 수가 있을 거예요.
01:57
: 그래서 과거의 정보들을 가지고 새로운 레코드가 들어왔을 때, 이 대출 여부를 예측하는 이런 것들을 주로 분류규칙에서 많이 사용하고 있어요.
02:13
: 그래서 지금 적혀 있는 걸 보시면 이런 대출 여부 이외에도 보시면 고객의 신용평가 이외의 목표 마케팅에도 활용한다고 했어요.
02:26
: 보통 대출 말고 인터넷에서 보시면 여러분들이 통신사를 사용하시면 대부분 멤버십이 있을 거예요.
02:35
: VIP, 골드, 실버. 이런 등급으로 나뉠 거예요. 이렇게 등급으로 나누고 이 등급마다 제공하는 서비스가 다르고 거기에 맞는 마케팅을 진행을 할 수 있을 겁니다.
02:51
: 그렇기 때문에 새로운 사람이 만약에 들어왔을 때, 새로운 레코드가 입력됐을 때
02:55
: VIP가 되든지, 골드가 되든지, 실버가 될 거니까 거기에 맞춰서 마케팅을 수행을 할 수 있을 겁니다.
03:03
: 이런 식으로 수행을 하는 게 보통 supervised learning이고 예측에 해당하고 가장 많이 사용되는 방법이다. 라고 기억을 해 주시고요.
03:14
: 그다음에 설명에 대해서 보시면 작업량이 연관규칙, 연속규칙, 데이터 군집화라는 게 있습니다.
03:23
: 보시면 연관규칙과 연속규칙은 묶어서 연관규칙 분석의 방법론이라고 생각을 하시면 돼요.
03:30
: 연속규칙 같은 경우도 연관규칙에 포함되어 있는 거예요. 각각에 대한 설명을 한번 보면, 연관규칙 같은 경우는 데이터 안에 존재하는 항목 간의 종속관계를 찾아내요.
03:44
: 그래서 제품이나 서비스의 교차 판매, 그리고 매장 진열, 첨부 우편, 사기 적발. 등의 다양한 분야에서 활용되고 있습니다.
03:58
: a를 여기에 연관규칙이라는 게 보통 마트에서 사용을 많이 해요. 대형마트 아니면 백화점에서도 사용을 할 수 있어요.
04:08
: 만약에 우유를 산 사람은 빵을 살 거야. 이렇게 생각을 할 수도 있을 거예요.
04:14
: 이게 보통 사람들이 구매하는 트랜잭션 데이터, 거래 데이터에서 한 거래에 담겨져 있는 제품들이 같이 담겨져 있으면 같이 판매된다.
04:26
: 종속적인 관계를 가진다. 라는 것들을 확인을 할 수 있을 겁니다.
04:30
: 그래서 우유가 판매되는 진열대 옆에 빵을 같이 배치한다든지 그런 식으로 할 수도 있고요.
04:37
: 그래서 매장 진열이라든지, 교차 판매, 우체국 같은 곳에선 첨부 우편, 아니면 사기 적발 이런 것들에 대해서 다양한 분야에서 활용할 수 있는 게 연관규칙이에요.
04:49
: 근데 이런 연관규칙에서 시간 관련 정보를 포함한 형태가 바로 연속규칙이라고 표현을 합니다.
04:57
: 그래서 고객의 구매 이력의 속성이 반드시 필요하며 목표 마케팅이나 1:1 마케팅에도 활용한다.
05:04
: 이런 연관 규칙에서 몇 시에, 만약에 A라는 제품을 샀는데 이게 언제 샀는지에 따라서 B를 살 거다. 만약에 핸드폰을 샀으면 폰 케이스를 사겠죠.
05:15
: 이거의 사는 데 걸리는 시간이라는 것들이 필요할 겁니다. 이런 게 들어가는데 바로 연속규칙이다. 라고 생각을 하시면 됩니다. 그래서 이런 방법들도 있습니다.
05:28
: 그리고 다음으로 나오는 게 데이터 군집화라는 게 있어요.
05:31
: 그래서 이 두 개를 묶어서 하나로 볼 수 있고, 군집화 같은 경우는 고객 레코드들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업이에요.
05:43
: 그래서 작업 특성이 분류규칙과 유사해요. 유사한데 분석 대상 데이터의 결괏값이 없습니다. 라벨이 없다는 거예요. 목적변수 목표변수가 없어요. 일단 목표변수가 없어요.
05:58
: 앞에서 말씀드린 것처럼, 위에 예측 같은 경우는 지도학습이고요. supervised learning이라고 말씀드렸습니다.
06:06
: 여기 설명에 있는 이런 분석 방법들은 unsupervised learning이에요. supervised learning을 보통 비지도 학습이라고 표현합니다.
06:16
: 그래서 예측에 대해서는 지도학습이라고 표현할 수 있고, 설명에 대해서는 비지도 학습이다. 라고 표현을 하실 수 있을 거예요.
06:25
: 그래서 여기 사용 기법도 보시면 k-means Clustering이라는 게 있고 연관규칙과 연속규칙 같은 경우는 동시발생 매트릭스라는 것으로 표현을 할 수가 있을 겁니다.
06:37
: k-means Clustering에 대해서 데이터 군집화에 대해서 한번 말씀을 드렸었어요. 그래서 남자에 대해서
06:45
: 어느 학교에 키, 몸무게만 가지고 이렇게 좌표 평면을 만들었을 때 점이 엄청 이렇게 찍힐 거예요. 여러명 사람이 있으면.
06:54
: 그래서 여기 보시면 이런 특성이 다 보일 겁니다. 그래서 유사한 그룹, 가까이에 있는 친구들끼리 하나의 군집으로 묶어주는 거예요.
07:04
: 이렇게 해서 이 각각 군집의 특성을 이 표를 보고 확인을 할 수 있을 거예요.
07:09
: 그래서 목푯값이 1번 그룹이다, 2번 그룹이다, 3번 그룹이다. 라고 목푯값을 새로 만들어 낼 수가 있어요.
07:18
: 그래서 이런 식으로 만들어 내서 각각에 따라서 만약에 판촉 활동이라든지, 이벤트 대상 선정을 한다든지
07:25
: 아니면 학생들 같은 경우는 밥을 어떻게 분배를 해야 한다든지, 그런 정도의 데이터를 분석을 할 수가 있을 겁니다.
20:00
:
00:21
~
02:13
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 데이터 마이닝 추진 단계 / 데이터 분할_1
bzuLGmxw_Ao
00:06
: 앞에서 이렇게 진행한 데이터 마이닝에 대해서 이게 어떻게 추진되는지 단계를 한번 확인을 해보도록 하겠습니다
00:15
: 단계도 시험 문제에 한 번씩 출제되니 반드시 기억을 하시기 바랍니다. 가장 첫 번째로 목적을 설정합니다.
00:23
: 목적 설정을 하는데, 데이터 마이닝을 통해서 무엇을, 왜 하는지 명확한 목적을 설정을 하셔야 돼요.
00:31
: 목적이 반드시 있어야 분석이 수행될 겁니다. 그래서 명확한 목적 반드시 기억하시기 바랍니다.
00:38
: 그리고 전문가가 참가해서 목적에 따라 사용할 모델과 필요한 데이터를 정리할 겁니다.
00:45
: 두 번째는 데이터를 준비하는 단계에요. 고객 정보라든지, 거래 정보, 상품 마스터 정보, 웹로그 데이터 아니면
00:55
: 소셜 네트워크 데이터 등의 다양한 데이터를 활용해서 데이터를 준비할 거예요.
01:00
: IT 부서하고 사전에 협의를 진행을 반드시 해야 되고, 그리고 일정을 조율해서 데이터 접근 부하의 유의를 해야 됩니다.
01:08
: 데이터양이 엄청 많은데 이것을 임의로 접근한다든지 이런 것들이 있을 수 없기 때문에 당연히 IT 부서하고 사전에 협의를 해야 될 겁니다.
01:16
: 그리고 데이터양이 엄청 크게 된다면 필요시에 따라서 다른 서버에 저장하고 운영에 지장 없도록 데이터를 준비해야 할 겁니다.
01:26
: 그래서 이 데이터 준비하는 과정에서는 제가 데이터 정제도 한번 진행할 거예요. 정제를 통해서 데이터의 품질 보장을 할 거고요.
01:36
: 그다음에 필요시 데이터를 보강하여 충분한 양의 데이터를 확보하는 과정이 데이터 준비 과정이다. 라고 기억을 하시기 바랍니다.
01:46
: 그리고 세 번째는 저희가 가공의 과정이 있을 거예요.
01:50
: 이렇게 데이터 준비가 마쳤으면 가공을 통해서 내가 분석에 활용하고자 하는 변수들을 추출해야 할 겁니다.
01:56
: 모델링 목적에 따라서 목적 변수를 정의합니다.
02:03
: 그리고 필요 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다. 라고 적혀 있습니다.
02:11
: 1단계, 2단계, 3단계 과정을 거치고 나면 데이터 분석 기법 적용을 할 겁니다.
02:18
: 1단계에서 명확한 목적에 맞게 데이터 마이닝 기법을 적용하여 정보를 추출해요.
02:27
: 1, 2, 3단계부터 생성된 데이터를 가지고 4단계에서 기법을 적용합니다.
02:33
: 그래서 이렇게 4단계에서 만들어진 모형을 가지고 검증을 할 거예요.
02:40
: 검증 단계를 거칩니다. 데이터 마이닝으로 추출된 정보를 검증합니다.
02:46
: 이게 올바른 정보인지, 아니면 잘못된 정보를 포함하고 있는 건지, 모델이 이상한지, 맞는지에 대해서 판단을 반드시 해야 됩니다.
02:54
: 그래서 검증단계를 거칠 겁니다.
02:57
: 그래서 데이터 마이닝으로 추출된 정보를 검증하고, 그다음에 테스트 데이터와 과거 데이터를 활용하여 최적의 모델을 선정한다. 라고 적혀 있습니다.
03:10
: 뒤에 바로 나올 건데 데이터 분석을 할 때는 항상 데이터를 분할을 해야 돼요.
03:15
: 데이터를 분할을 해서 데이터를 분석을 할 건데, 분할을 통해서 나오는 게 테스트 데이터가 있습니다. 그걸 통해서 최적의 모델 선정을 할 거예요.
03:26
: 그래서 이런 검증이 완료되면 IT 부서와 협의를 통해서 상시 데이터 마이닝 결과를 업무에 적용하고 보고서를 작성해서
03:36
: 추가 수익과 투자 대비 성과 등으로 기대효과를 전파한다. 이런 순서대로 진행이 될 겁니다.
03:43
: 보통 그래서 반드시 순서는 기억하셔야 해요.
03:47
: 목적 설정, 데이터 준비, 가공 그리고 기법 적용, 검증 순으로 데이터 마이닝이 추진된다. 라는 점 반드시 기억하시기 바랍니다.
04:00
: 그러면 검증에서 이런 방법들이 있는데 테스트 데이터를 한번 말씀을 드렸어요.
04:07
: 이런 테스트 데이터가 왜 나오는지에 대해서 한번 확인을 해보겠습니다.
04:12
: 데이터 분석을 하실 때는 여러분 데이터 분석보다 마이닝을 하실 때는, 반드시 데이터를 분할해서 분석에 수행을 하셔야 됩니다.
04:23
: 데이터 마이닝을 할 때 왜 데이터를 분할하느냐에 대해서 먼저 말씀을 드리면
04:29
: 만약에 대출 여부에 대해서, 대출 적격 여부 모형을 만든다고 할게요.
04:49
: 이 모형을 만드는데 모형을 만들 때 데이터를 만약에 이렇게 100%가 있다고 할게요.
04:58
: 이 100%의 데이터 전체를 가지고 모형을 만들었을 때 만들면 당연히 좋은 모형이 나오거나 나쁜 모형이 나올 수 있습니다.
05:06
: 그런데 이 모형이 좋은 모형인지, 나쁜 모형인지 파악할 수 있는 데이터가 있어야 되겠죠. 비교 대상이 있어야 될 거예요.
05:16
: 그렇기 때문에 이런 적격 여부 모형을 확인할 수 있는, 검증할 수 있는 데이터가 있어야 됩니다.
05:23
: 그래서 보통 데이터 분석 모형을 만들 때는 이렇게 100% 전체 데이터를 가지고 이렇게 모형을 만드는 게 아니라
05:32
: 이 중에서 50% 정도는 모형을 만드는 데 사용하고요. 나머지 30% 정도 가지고는 이 모형을 검증할 겁니다.
05:46
: 이 모형이 뒤에서 나오겠지만 오버피팅 하는지, 아니면 언더피티 한다든지 이런 것들을 검증하는 단계가 있어야 되고
05:56
: 그다음에 마지막으로 테스트를 하는 20%의 데이터로 가지고 테스트를 할 겁니다.
06:02
: 80% 가지고는 데이터 모형에 대해서 최종적으로 만들어 갈 때 사용을 하고
06:09
: 그다음에 남은 20%로 이런 테스트를 수행을 한다. 라고 생각을 하시면 돼요.
06:16
: 그렇기 때문에 저희가 데이터 마이닝을 할 때는 그냥 전체를 가지고 이렇게 모형을 만드는 게 아니라 데이터 모형에 대한 테스트 데이터
06:26
: 그다음에 밸리데이션 데이터 이거를 통해서 검증을 진행을 하고
06:31
: 마지막 20%로 테스트. 시험을 확인해 보는 그런 데이터로 분할을 해서 보통 분석을 수행합니다.
06:40
: 그래서 이런 방법들을 통해서 데이터를 분할하고 분석에 직접 적용을 해서 분석을 수행을 하실 수 있을 겁니다.
20:00
:
04:15
~
06:14
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음