남은 문제 : 36
문제 1327
다음 데이터 마이닝의 대표적인 기능 중 이질적인 모집단을 세분화하는 기능으로 적절한 것은?
보기
1.분류분석
2.모수추정
3.군집분석
4.연관분석
정답
3
해시
태그
lADsP 완전 정복l 데이터 마이닝 분석 방법
oEF1Eeqw20s
00:05
: 그러면 여기서 데이터 마이닝 분석 방법에 대해서 저희가 세부적으로 한번 확인을 해 볼게요.
00:10
: 반드시 기억을 하셔야 되는 게 supervised learning이라는 게 있고요. unsupervised learning이라는 게 있습니다.
00:20
: supervised learning 같은 경우는 라벨이 있다. 라고 생각을 하시면 돼요.
00:30
: 여기서 말하는 라벨이란 게 무엇이냐면 바로 목표변수인 거예요.
00:36
: 목표변수가 있냐, 없냐에 따라서 supervised learning 아니면 unsupervised learning으로 분류를 할 수 있어요.
00:45
: 목표변수에 대해서 간략하게 말씀을 드리면 이전에 제가 설명을 해드렸던 것처럼 은행에 대해서 한번 말씀을 드릴게요.
00:53
: 홍길동이라는 사람이 대출 여부를 한번 확인을 할 겁니다. 그런데 거기에 필요한 어떤 데이터들이 있을 거예요.
01:01
: 이런 데이터들에 대해서 어떤 값들이 a라는 값도 있고, b, c, d, e, f. 라는 값들이 있을 겁니다.
01:10
: 이런 것들을 통해서 이 홍길동이라는 사람이 대출을 할 수 있다. O 또는 x라는 값이 있을 거예요.
01:20
: 이 모형의 목적변수는 이 모형의 목적은 대출 여부를 판단하는 거죠. 그래서 이렇게
01:30
: 데이터에서 목적 여부가 목적변수가 있다면 이거는 supervised learning이라고 할 수 있습니다.
01:37
: 근데 데이터 중에서 이런 대출 여부가 없는 경우가 있어요.
01:42
: 만약에 a라는 지역에서 고등학교 학생들에 대해서 몸무게와 키만 조사했다고 할게요.
01:49
: 그러면 a라는 학생, b라는 학생, c라는 학생, d라는 학생 해서 이름이 있을 수 있고, 그다음에 키, 몸무게가 있습니다.
01:59
: 어떤 정보들이 다 있을 겁니다. 이런 식으로 되어 있는데 여기서는 그냥 분석을 하는데 이런 것들을 군집으로 한번 묶어보고 싶어요.
02:09
: 그래서 군집으로 묶었을 때는 이런 식으로 나타나서 점들이 이렇게 나타날 겁니다.
02:15
: x축에는 키가 될 거고요, y축에는 몸무게가 될 겁니다. 이런 식으로 데이터가 나타나는데 이렇게 특성을 가진 군집들이 생성된다고 해요.
02:26
: 처음에 아까 전에 그렸던 키, 몸무게, 두 가지 데이터만 가지고 이런 좌표 평면 안에
02:35
: 그래프를 하나 그렸는데 이렇게 학생들에 대한 특성을 이 그래프를 통해서 확인을 할 수 있을 거예요.
02:42
: 근데 저희가 가지고 있었던 데이터 같은 경우는 이름이라든지 키, 몸무게 이런 것들을 밖에 없었어요.
02:50
: 목표변수는 없는데 이렇게 그래프를 그리고 군집을 했을 때는 특성들을 찾아볼 수가 있을 겁니다.
02:58
: 그래서 처음에 이런 목표변수가 없는 것. 이거를 unsupervised learning이라고 하고 밑에처럼 목표변수가 있는 것을 supervised learning이라고 한다. 반드시 기억하셔야 합니다.
03:11
: 이거는 목표가 있고, 없고에 따라서 사용할 수 있는 모형 자체가 다르기 때문에 unsupervised learning, supervised learning 반드시 기억하시기 바랍니다.
03:20
: 그러면 supervised learning하고 unsupervised learning의 어떤 분석 방법론들이 있는지 한번 확인해 볼 수 있도록 하겠습니다.
03:23
: 보시면 unsupervised learning 같은 경우 먼저 설명해 드릴게요.
03:33
: unsupervised learning 같은 경우는 OLAP 1과목에서 배웠던 OLAP라는 것도 있고, 아니면 연관규칙발견이라는 게 있습니다.
03:44
: Market Basket 아니면 Association Rule Discovery. 만약에 A라는 제품을 샀을 때, 이 사람은 B라는 제품도 살 것이야. 라는 것들을 예측하는 이런 연관규칙발견이 있고요.
03:58
: 두 번째로는 군집분석이라는 게 있습니다. 군집분석은 앞에서 말씀드린 것처럼 이런 방법이에요.
04:05
: 키랑 몸무게에 따라서 군집을 묶어 줄 거예요. 키도 작고 몸무게도 작은 학생들에 대해서는 어떤 특징을 가졌기 때문에 어떤 것들을 해줘야 한다.
04:14
: 키는 큰데 몸무게가 낮은 애들은 몸무게를 좀 더 늘려야 된다. 그런 특성을 발견할 수 있는 거예요.
04:21
: 그래서 비슷한 것들끼리 묶어주는 게 군집분석이다.라고 생각해 주시면 됩니다.
04:28
: 그중에서 가장 많이 사용되는 게 k-means clustering이라는 게 것이 있습니다.
04:33
: 그리고 세 번째 나오는 이 self organization map(SOM) 같은 경우는 군집 분석에 하나의 방법으로
04:42
: 인공신경망을 기반으로 한 비지도 학습에 대해서 나타날 수 있는 군집분석 방법이다.
04:48
: 이거에 대해서 자세한 방법은 뒤에 군집분석을 할 때 제가 한번 설명을 드릴 수 있도록 하겠습니다.
04:56
: 자 그러면 supervised learning 같은 경우는 어떤 것들이 있냐? 의사결정나무라는 것이 있어요.
05:03
: 어떤 값에 대해서 이것을 계속 분리해 나갑니다. 나무 형태로 이렇게 만들어가는 것을.
05:10
: 의사결정나무. 계층적으로 내려가면서 위계질서가 있는 이런 형태로 모형을 만들어 나가는 것을 의사결정나무라고 표현을 해요.
05:20
: 그래서 의사결정나무라는 방법도 있고 인공신경망 이거는 인간의 뇌를 형상화해서 만들어낸 그런 분석 방법. 요즘에도 아주 핫한 분석 방법이죠.
05:32
: 그리고 판별분석. 군집분석과 비슷한데 라벨이 있는 군집분석이에요.
05:39
: 그리고 일반화선형 모형에서는 이렇게 회귀분석이라든지, 아니면 로지스틱 회귀분석 그리고 사례기반 추론 Case-Based Reasoning. 이런 방법들이
05:50
: supervised learning에 해당하는 분석 방법이다. 라고 기억을 하시기 바랍니다.
20:00
:
02:09
~
03:11
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 분석 목적에 따른 유형과 기법
r4BZ8jBtfJk
00:06
: 분석 목적에 따른 유형과 기법으로도 볼 수 있습니다. 분석 목적에 따라서 나눌 수 있어요.
00:12
: 목적이 예측이냐, 설명이냐에 따라서 유형과 기법이 나눠집니다.
00:21
: 보통 예측으로 하게 된다면 작금 유형이 분류를 찾는 겁니다.
00:26
: classification을 주로 진행을 할 거예요. 설명을 보시면 가장 많이 사용되는 작업입니다.
00:34
: 데이터 마이닝에서 가장 많이 사용되는 작업으로서 분류를 주로 많이 해요.
00:41
: 그래서 과거의 데이터로부터 고객 특성을 찾아내 분류모형을 만들어 내고 이를 토대로 새로운 레코드의 결괏값을 예측합니다.
00:51
: 그래서 목표 마케팅이나 고객 신용평가 모형에 활용이 된다. 라고 적혀 있어요.
01:00
: 사용 기법은 주로 회귀분석, 판별분석, 신경망, 의사결정론 보시면 supervised learning이에요.
01:14
: supervised learning은 보통 지도학습이라고도 표현합니다. 지도학습 방법론들이 보통 예측에 들어갑니다.
01:24
: 홍길동이라는 사람이 대출 여부를 확인한다고 했어요.
01:27
: 여부를 보는데 각각 데이터가 있는데 이런 데이터가 있으니까 이 사람이 대출이 된다고 합니다. 그럼 이런 정보들이 엄청 많이 있을 거예요
01:37
: 이런 정보를 가지고 저희가 데이터 마이닝 모형을 만들었다고 칩시다. 그러면은 김철수라는 사람이 어떤 정보를 가지고 있어서 데이터를 입력했어요.
01:50
: 했을 때, 결국에는 대출 여부를 확인할 겁니다. 그래서 결과적으로 되는지, 안되는지를 판단을 할 수가 있을 거예요.
01:57
: 그래서 과거의 정보들을 가지고 새로운 레코드가 들어왔을 때, 이 대출 여부를 예측하는 이런 것들을 주로 분류규칙에서 많이 사용하고 있어요.
02:13
: 그래서 지금 적혀 있는 걸 보시면 이런 대출 여부 이외에도 보시면 고객의 신용평가 이외의 목표 마케팅에도 활용한다고 했어요.
02:26
: 보통 대출 말고 인터넷에서 보시면 여러분들이 통신사를 사용하시면 대부분 멤버십이 있을 거예요.
02:35
: VIP, 골드, 실버. 이런 등급으로 나뉠 거예요. 이렇게 등급으로 나누고 이 등급마다 제공하는 서비스가 다르고 거기에 맞는 마케팅을 진행을 할 수 있을 겁니다.
02:51
: 그렇기 때문에 새로운 사람이 만약에 들어왔을 때, 새로운 레코드가 입력됐을 때
02:55
: VIP가 되든지, 골드가 되든지, 실버가 될 거니까 거기에 맞춰서 마케팅을 수행을 할 수 있을 겁니다.
03:03
: 이런 식으로 수행을 하는 게 보통 supervised learning이고 예측에 해당하고 가장 많이 사용되는 방법이다. 라고 기억을 해 주시고요.
03:14
: 그다음에 설명에 대해서 보시면 작업량이 연관규칙, 연속규칙, 데이터 군집화라는 게 있습니다.
03:23
: 보시면 연관규칙과 연속규칙은 묶어서 연관규칙 분석의 방법론이라고 생각을 하시면 돼요.
03:30
: 연속규칙 같은 경우도 연관규칙에 포함되어 있는 거예요. 각각에 대한 설명을 한번 보면, 연관규칙 같은 경우는 데이터 안에 존재하는 항목 간의 종속관계를 찾아내요.
03:44
: 그래서 제품이나 서비스의 교차 판매, 그리고 매장 진열, 첨부 우편, 사기 적발. 등의 다양한 분야에서 활용되고 있습니다.
03:58
: a를 여기에 연관규칙이라는 게 보통 마트에서 사용을 많이 해요. 대형마트 아니면 백화점에서도 사용을 할 수 있어요.
04:08
: 만약에 우유를 산 사람은 빵을 살 거야. 이렇게 생각을 할 수도 있을 거예요.
04:14
: 이게 보통 사람들이 구매하는 트랜잭션 데이터, 거래 데이터에서 한 거래에 담겨져 있는 제품들이 같이 담겨져 있으면 같이 판매된다.
04:26
: 종속적인 관계를 가진다. 라는 것들을 확인을 할 수 있을 겁니다.
04:30
: 그래서 우유가 판매되는 진열대 옆에 빵을 같이 배치한다든지 그런 식으로 할 수도 있고요.
04:37
: 그래서 매장 진열이라든지, 교차 판매, 우체국 같은 곳에선 첨부 우편, 아니면 사기 적발 이런 것들에 대해서 다양한 분야에서 활용할 수 있는 게 연관규칙이에요.
04:49
: 근데 이런 연관규칙에서 시간 관련 정보를 포함한 형태가 바로 연속규칙이라고 표현을 합니다.
04:57
: 그래서 고객의 구매 이력의 속성이 반드시 필요하며 목표 마케팅이나 1:1 마케팅에도 활용한다.
05:04
: 이런 연관 규칙에서 몇 시에, 만약에 A라는 제품을 샀는데 이게 언제 샀는지에 따라서 B를 살 거다. 만약에 핸드폰을 샀으면 폰 케이스를 사겠죠.
05:15
: 이거의 사는 데 걸리는 시간이라는 것들이 필요할 겁니다. 이런 게 들어가는데 바로 연속규칙이다. 라고 생각을 하시면 됩니다. 그래서 이런 방법들도 있습니다.
05:28
: 그리고 다음으로 나오는 게 데이터 군집화라는 게 있어요.
05:31
: 그래서 이 두 개를 묶어서 하나로 볼 수 있고, 군집화 같은 경우는 고객 레코드들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업이에요.
05:43
: 그래서 작업 특성이 분류규칙과 유사해요. 유사한데 분석 대상 데이터의 결괏값이 없습니다. 라벨이 없다는 거예요. 목적변수 목표변수가 없어요. 일단 목표변수가 없어요.
05:58
: 앞에서 말씀드린 것처럼, 위에 예측 같은 경우는 지도학습이고요. supervised learning이라고 말씀드렸습니다.
06:06
: 여기 설명에 있는 이런 분석 방법들은 unsupervised learning이에요. supervised learning을 보통 비지도 학습이라고 표현합니다.
06:16
: 그래서 예측에 대해서는 지도학습이라고 표현할 수 있고, 설명에 대해서는 비지도 학습이다. 라고 표현을 하실 수 있을 거예요.
06:25
: 그래서 여기 사용 기법도 보시면 k-means Clustering이라는 게 있고 연관규칙과 연속규칙 같은 경우는 동시발생 매트릭스라는 것으로 표현을 할 수가 있을 겁니다.
06:37
: k-means Clustering에 대해서 데이터 군집화에 대해서 한번 말씀을 드렸었어요. 그래서 남자에 대해서
06:45
: 어느 학교에 키, 몸무게만 가지고 이렇게 좌표 평면을 만들었을 때 점이 엄청 이렇게 찍힐 거예요. 여러명 사람이 있으면.
06:54
: 그래서 여기 보시면 이런 특성이 다 보일 겁니다. 그래서 유사한 그룹, 가까이에 있는 친구들끼리 하나의 군집으로 묶어주는 거예요.
07:04
: 이렇게 해서 이 각각 군집의 특성을 이 표를 보고 확인을 할 수 있을 거예요.
07:09
: 그래서 목푯값이 1번 그룹이다, 2번 그룹이다, 3번 그룹이다. 라고 목푯값을 새로 만들어 낼 수가 있어요.
07:18
: 그래서 이런 식으로 만들어 내서 각각에 따라서 만약에 판촉 활동이라든지, 이벤트 대상 선정을 한다든지
07:25
: 아니면 학생들 같은 경우는 밥을 어떻게 분배를 해야 한다든지, 그런 정도의 데이터를 분석을 할 수가 있을 겁니다.
20:00
:
05:28
~
07:25
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 데이터 마이닝 종류 / 사용 분야
iTWFaprVroA
00:06
: 데이터 마이닝에 대한 개념이 이렇게 나와 있는데요.
00:08
: 먼저 데이터 마이닝의 뜻을 한번 보면, 데이터 여러분들이 아시는 데이터고요. 그다음에 마이닝이라는 뜻이 있어요.
00:18
: 마인은 캐낸다는 뜻이에요. 그래서 데이터에서 캐낸다. 라고 생각을 하시면 돼요.
00:26
: 데이터에서 무엇을 캐느냐. 의미 있는 정보를 캐내는 것이 데이터 마이닝이다. 라고 이해를 하시면 됩니다.
00:35
: 개념을 한번 보겠습니다. 데이터 마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 라고 적혀 있습니다.
00:48
: 이 정의에서 집중해서 봐야 될 단어가 대용량 데이터, 의미 있는 패턴, 그리고 의사결정에 활용하는 방법.
01:01
: 이 3개 정도는 반드시 기억을 하고 계셔야 해요. 데이터 마이닝의 개념을 물어볼 때는
01:06
: 이런 단어들이 키워드가 돼서 보통 시험에 나오거나 개념을 확인하실 수가 있을 거예요.
01:13
: 데이터 마이닝은 대용량 데이터에서 캐내는 거예요.
01:16
: 캐낸다고 말씀을 했는데 이게 데이터양이 매우 작으면 그 패턴이나 이런 것들도 눈에 쉽게 파악이 되는데
01:24
: 데이트 용량이 엄청 크게 되면 의미 있는 패턴을 눈으로 확인을 하실 수가 없을 거예요.
01:32
: 그래서 통계 분석에서는 이런 데이터 마이닝 기법을 적용해서 분석을 하는 게 아니라, 통계 분석에서는 전체 모집단에서 일부 샘플만 뽑아서 분석을 진행하는 거예요.
01:44
: 그래서 대용량이라는 뜻은 분석에서는 맞지 않습니다. 그래서 이런 데이터 마이닝 같은 경우는 분류분석이라든지
01:56
: 예측분석, 군집분석 그리고 연관분석까지 이런 것들이 포함되어 있어요.
02:01
: 그래서 이런 데이터 마이닝 기법들을 이해하고 적용하는 것까지 한번 진행해 볼 수 있도록 하겠습니다.
02:10
: 그러면 이 데이터 마이닝의 종류를 간략하게 볼 건데, 그 전에 통계분석하고 데이터 마이닝의 차이점을 한번 볼 수 있도록 하겠습니다.
02:19
: 통계분석 같은 경우는 가설이나 가정에 따른 분석이나 검증을 합니다.
02:25
: 가설이나 가정에 따른 분석이나 검증을 해요. 전체 모집단에서 일부 샘플만 뽑아와서 이 모집단에 대해서 추론한다고 할 수도 있어요.
02:37
: 그래서 평균에 대한 비교, 이거는 반드시 귀무가설이라든지 대립가설 같은 이런 가설이
02:47
: 성립이 되어야 하고, 그거에 대해서 비교를 하여 하나만 선택하는 그런 방법을 통계분석이라고 할 수 있어요.
02:55
: 그런데 데이터 마이닝은 다양한 수리 알고리즘을 이용해서 데이터베이스에 데이터로부터 의미 있는 정보를 찾아내는 방법이다. 라고 적혀 있습니다.
03:06
: 그래서 다양한 수리 알고리즘 그리고 의미 있는 정보를 찾아내는 방법을 통칭한다. 이렇게 보면 통계 분석 같은 경우는
03:15
: 반드시 대용량 데이터는 아니고 대용량이 아니고, 그리고 가설 검정이 반드시 필요합니다.
03:24
: 이건 통계분석이라고 할 수 있어요. 반대로 이런 정보랑 반대로 대용량 데이터를 이용하고 가설 검정이 없어요.
03:35
: 이건 데이터 마이닝이다. 라고 할 수 있습니다. 추가로 여기에 다양한 수리 알고리즘도 포함이 되겠죠. 이런 차이가 있기 때문에 반드시 기억을 하셔야 됩니다.
03:48
: 보통 분석을 하실 때는 회귀분석이나 이런 거 이전에. 변수 선택을 하실 때도 통계분석을 이용해서 변수를 선택을 하고,
03:58
: 그렇게 선택된 변수를 가지고 데이터 마이닝을 수행을 하거나 합니다.
04:05
: 그렇게 된다는 거 기억을 해주시기 바랍니다.
04:15
: 그러면 이런 종류를 한번 보시면 정보를 찾는 방법으로는 따라, 아니면 분석 대상이나 활용 목적, 표현 방법에 따라서 두 가지로 나눠 볼 수가 있어요.
04:26
: 이렇게 두 가지로 나눠보면 분석 대상이나 활용 목적, 표현 방법에 따라서는 이런 5가지 방법이 있습니다.
04:36
: 크게 보면 시각화 분석을 한다든지, 아니면은 A, B, C, D와 같은 것들로 분류를 한다든지, 아니면 특정한 수칫값. 79점 아니면
04:51
: 주식 주가가 얼마인지 이런 식으로 할 수 있는 예측을 한다든지
04:56
: 아니면 정보가 없는 데이터들에 대해서 같은 범주 안에 속해 있는지 확인하는 군집화를 한다든지
05:06
: 아니면 마지막으로는 시계열 분석에서 하는 포케스팅. 시계열 예측 같은 것들도 데이터 마이닝의 방법 중에 하나가 될 수 있어요.
05:17
: 그리고 정보를 찾는 방법론에 따라서는 인공지능 AI라고 하죠. 그래서 뭐 ANN 아니면 딥러닝 이런 것들이 포함이 될 수도 있고
05:28
: 아니면 방법론 중에 하나인 의사결정나무, K 평균군집분석, 연관분석, 회귀분석, 로짓분석, 최근접이웃 이런 방법론들이 있습니다.
05:40
: 이런 각각 방법론들은 오른쪽에 있는 분류, 예측, 군집화에 포함이 되는 분석 방법들이에요.
05:50
: 오른쪽에 있는 것들이 포괄적인 방법들이라고 생각을 하시면, 여기는 세부 내용이라고 생각을 하시면 돼요.
06:00
: 그래서 오른쪽에 있는 분석대상이나 활용 목적 표현방법이 엄청 큰 바운더리에 있다면, 그 안에 이런 방법들이 다 들어간다. 라고 생각해 주시면 됩니다.
06:14
: 그러면 이런 종류에 따라서 한번 봤는데 사용 분야가 있을 겁니다.
06:20
: 데이터 마이닝을 어디서 많이 사용하는지에 대해서도 아마 궁금하실 수가 있을 거예요.
06:25
: 그래서 이 데이터 마이닝에 사용 분야에 대해서 예시를 한번 보고 어떻게 사용되는지 간략하게 한번 말씀을 드리겠습니다.
06:35
: 가장 먼저 병원에서도 데이터 마이닝을 사용을 합니다.
06:41
: 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측한다. 라고 적혀 있습니다.
06:51
: 어떤 A라는 환자가 병원에 엄청 많이 가요. 진료를 많이 봅니다. 이런 진료 데이터가 쌓이게 된다면
07:01
: A라는 사람이 어떤 특징을 가지고 있기 때문에 무슨 암이 의심된다. 라고 생각을 할 수 있을 거예요.
07:08
: 그래서 이런 데이터들을 수집해서 암을 예측한다든지. 진단 데이터라고 할 수 있죠.
07:18
: 진단 데이터. 이런 것들을 통해서 암을 예측하는 그런 모형도 만들어 볼 수 있을 겁니다.
07:28
: 요즘에는 이런 암 예측 이런 것들도 있지만, 보통 병원에서는 사진을 많이 사용해요. 그래서 만약에 암과 관련된 사진을 엄청 많이 모읍니다.
07:43
: 그래서 사진을 찍었을 때, 이 사진의 모형하고 똑같다고 하면은 암이다. 암이 아니다.
07:51
: 이런 식으로 판단할 수 있는 그런 모형도 딥러닝을 통해서 요즘에는 만들어 내고 있다고 해서
07:58
: 병원에서도 이렇게 쓰일 수 있다는 점 반드시 기억하시기 바랍니다.
08:02
: 두 번째로 나타낼 수 있는 것은 또 병원인데 이것도 보시면 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야 하는지에 결정한다. 라고 적혀 있어요.
08:15
: 그래서 응급실에 왔는데 어떤 특징을 가진 사람이 어떤 응급처치를 받았다. 응급처치를 어떤 걸 받았는지 알 수 있겠죠.
08:27
: 발목을 삐었을 때 응급처치를 무엇을 해야 되느냐 했을 때 거기에 대해서 방법이 여러 가지가 있겠죠.
08:35
: 어떻게 삐었는지, 그다음에 뭐 깁스를 해야 되는지, 아니면은 ct를 찍어 봐야 되는지, 아니면 병원 선생님의 진료가 가장 먼저 시급한지 이런 정보들이 엄청 많이 쌓일 거예요.
08:50
: 응급실에는 하루에도 몇백 명의 사람들이 드나들기 때문에 거기에 대한 데이터가 엄청나게 쌓여 있을 겁니다.
08:57
: 그래서 그 데이터에서 이런 조치를 먼저 해야 하는지에 관한 결정을 할 수 있는 모형도 한번 만들어 볼 수 있을 겁니다. 병원에서도 이렇게 사용이 될 수 있고요.
09:09
: 두 번째로 보시면은 병원 이외에도 이렇게 고객 데이터를 이용해서 해당 고객의 우량과 불량을 예측해서 대출 적격 여부를 판단한다고 합니다.
09:22
: A라는 은행에 홍길동이라는 사람이 대출에 대해서 한번 심사받기 위해서 왔습니다.
09:30
: 그러면 이 A의 은행에서는 이 홍길동이라는 사람에게 어떤 데이터를 요구하냐면 나이, 성별 그다음에 자가 여부.
09:39
: 요즘에는 가장 간단하게 볼 수 있는 게 건강보험료죠. 등의 데이터를 수집을 할 거예요.
09:48
: 그래서 이 사람이 몇 살이고, 성별이 뭐고, 자가가 있는지, 건강보험료가 얼마인지. 이런 것들을 통해서
09:54
: 홍길동이라는 사람이 대출이 가능한지, 안 되는지 이런 것들을 판단을 할 수 있을 겁니다.
10:02
: 이런 것들이 데이터 마이닝 모형으로 분류를 해 줄 거예요.
10:06
: 이 사람은 어떤 정보가 있고, 무엇 때문에 대출이 안 나올 거다. 라든지. 아니면 이런 것들을 통해서 대출 금액이 약 얼마 정도 나오는지 예측도 가능하겠죠.
10:18
: 이 정도는 나올 거다. 라고 예측을 한다든지, 이런 식으로 데이터 마이닝을 활용 하실 수 있을 겁니다.
10:26
: 그리고 마지막으로는 세관 검사의 입국자의 이력과 입국자의 이력, 그다음에 데이터를 통해서 관세 물품 반입 여부를 예측한다. 라고 했습니다
10:36
: 사람들이 뭐 비행기를 타든지, 배를 타든지, 어느 나라에 입국하든지, 한국으로 들어온다든지, 이런 데이터는 이동하는 데이터가 항상 쌓일 거예요.
10:51
: 그래서 그 사람들이 특정 어떤 물건을 들고 들어온 사람들에 대해서 이 사람은 반입을 할 수 있는 물품을 들고 왔어
11:02
: 아니면 반입 못 하는 물건을 들고 왔어 이런 식으로 데이터가 엄청나게 쌓일 거예요.
11:08
: 그래서 A라는 사람이 김치라든지, 아니면 물. 이런 것들을 들여왔는데, 이런 것들 중에서 물이 만약에 반입이 안 되는 물품이다. 라고
11:21
: 미리 알고 있으면 이 물이란 걸 들고 왔기 때문에 반입할 수 없다. 라고 바로 예측을 할 수 있게 만들어 준다든지
11:28
: 이런 많이 쌓인 데이터 가지고 관세 물품의 반입 여부도 예측할 수가 있을 겁니다.
11:35
: 이렇게 지금은 간단하게 병원이라든지, 아니면 은행, 그다음에 세관. 이런 것들에 대해서만 데이터를 봤는데 이거 이외에도 엄청나게 많은 방법이 있어요.
11:50
: 사용 분야가 있습니다. 체육 분야에서도 사용할 수 있고, 인터넷 쇼핑에서 사용할 수 있고, 일반 제조업에서도 데이터 마이닝을 사용을 할 수 있고요.
12:01
: 그렇기 때문에 엄청 많은 분야에서 사용할 수 있는 게 데이터마 이닝이다. 라고 기억을 하시면 됩니다.
20:00
:
05:06
~
06:14
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음