남은 문제 : 36

문제 1333

Hitters 데이터셋은 메이저리그에서 활약하는 322명의 선수에 대한 타자 기록으로 연봉을 비롯한 20개의 변수를 포함하고 있다. 아래는 모형적합에 앞서 데이터를 Train set과 Test set으로 분할하는 과정이다. 다음 중 아래에 대한 설명으로 가장 부적절한 것은?

보기

1.50:50으로 데이터를 분할하고 있다.
2.50%의 데이터(Train set)를 사용하여 모형을 학습하고 나머지 50%의 데이터(Test set)로 모형을 평가하기 위한 사전작업이다.
3.모형 학습과 평가를 동일한 데이터셋에 진행하면 모형이 과적합 될 수 있다.
4.일반적으로 Test set에 대한 모형평가 결과가 Train set에 대한 모형평가 결과보다 좋다.

정답

해시
태그

lADsP 완전 정복l 데이터 마이닝 추진 단계 / 데이터 분할_1 bzuLGmxw_Ao	00:06 : 앞에서 이렇게 진행한 데이터 마이닝에 대해서 이게 어떻게 추진되는지 단계를 한번 확인을 해보도록 하겠습니다 00:15 : 단계도 시험 문제에 한 번씩 출제되니 반드시 기억을 하시기 바랍니다. 가장 첫 번째로 목적을 설정합니다. 00:23 : 목적 설정을 하는데, 데이터 마이닝을 통해서 무엇을, 왜 하는지 명확한 목적을 설정을 하셔야 돼요. 00:31 : 목적이 반드시 있어야 분석이 수행될 겁니다. 그래서 명확한 목적 반드시 기억하시기 바랍니다. 00:38 : 그리고 전문가가 참가해서 목적에 따라 사용할 모델과 필요한 데이터를 정리할 겁니다. 00:45 : 두 번째는 데이터를 준비하는 단계에요. 고객 정보라든지, 거래 정보, 상품 마스터 정보, 웹로그 데이터 아니면 00:55 : 소셜 네트워크 데이터 등의 다양한 데이터를 활용해서 데이터를 준비할 거예요. 01:00 : IT 부서하고 사전에 협의를 진행을 반드시 해야 되고, 그리고 일정을 조율해서 데이터 접근 부하의 유의를 해야 됩니다. 01:08 : 데이터양이 엄청 많은데 이것을 임의로 접근한다든지 이런 것들이 있을 수 없기 때문에 당연히 IT 부서하고 사전에 협의를 해야 될 겁니다. 01:16 : 그리고 데이터양이 엄청 크게 된다면 필요시에 따라서 다른 서버에 저장하고 운영에 지장 없도록 데이터를 준비해야 할 겁니다. 01:26 : 그래서 이 데이터 준비하는 과정에서는 제가 데이터 정제도 한번 진행할 거예요. 정제를 통해서 데이터의 품질 보장을 할 거고요. 01:36 : 그다음에 필요시 데이터를 보강하여 충분한 양의 데이터를 확보하는 과정이 데이터 준비 과정이다. 라고 기억을 하시기 바랍니다. 01:46 : 그리고 세 번째는 저희가 가공의 과정이 있을 거예요. 01:50 : 이렇게 데이터 준비가 마쳤으면 가공을 통해서 내가 분석에 활용하고자 하는 변수들을 추출해야 할 겁니다. 01:56 : 모델링 목적에 따라서 목적 변수를 정의합니다. 02:03 : 그리고 필요 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다. 라고 적혀 있습니다. 02:11 : 1단계, 2단계, 3단계 과정을 거치고 나면 데이터 분석 기법 적용을 할 겁니다. 02:18 : 1단계에서 명확한 목적에 맞게 데이터 마이닝 기법을 적용하여 정보를 추출해요. 02:27 : 1, 2, 3단계부터 생성된 데이터를 가지고 4단계에서 기법을 적용합니다. 02:33 : 그래서 이렇게 4단계에서 만들어진 모형을 가지고 검증을 할 거예요. 02:40 : 검증 단계를 거칩니다. 데이터 마이닝으로 추출된 정보를 검증합니다. 02:46 : 이게 올바른 정보인지, 아니면 잘못된 정보를 포함하고 있는 건지, 모델이 이상한지, 맞는지에 대해서 판단을 반드시 해야 됩니다. 02:54 : 그래서 검증단계를 거칠 겁니다. 02:57 : 그래서 데이터 마이닝으로 추출된 정보를 검증하고, 그다음에 테스트 데이터와 과거 데이터를 활용하여 최적의 모델을 선정한다. 라고 적혀 있습니다. 03:10 : 뒤에 바로 나올 건데 데이터 분석을 할 때는 항상 데이터를 분할을 해야 돼요. 03:15 : 데이터를 분할을 해서 데이터를 분석을 할 건데, 분할을 통해서 나오는 게 테스트 데이터가 있습니다. 그걸 통해서 최적의 모델 선정을 할 거예요. 03:26 : 그래서 이런 검증이 완료되면 IT 부서와 협의를 통해서 상시 데이터 마이닝 결과를 업무에 적용하고 보고서를 작성해서 03:36 : 추가 수익과 투자 대비 성과 등으로 기대효과를 전파한다. 이런 순서대로 진행이 될 겁니다. 03:43 : 보통 그래서 반드시 순서는 기억하셔야 해요. 03:47 : 목적 설정, 데이터 준비, 가공 그리고 기법 적용, 검증 순으로 데이터 마이닝이 추진된다. 라는 점 반드시 기억하시기 바랍니다. 04:00 : 그러면 검증에서 이런 방법들이 있는데 테스트 데이터를 한번 말씀을 드렸어요. 04:07 : 이런 테스트 데이터가 왜 나오는지에 대해서 한번 확인을 해보겠습니다. 04:12 : 데이터 분석을 하실 때는 여러분 데이터 분석보다 마이닝을 하실 때는, 반드시 데이터를 분할해서 분석에 수행을 하셔야 됩니다. 04:23 : 데이터 마이닝을 할 때 왜 데이터를 분할하느냐에 대해서 먼저 말씀을 드리면 04:29 : 만약에 대출 여부에 대해서, 대출 적격 여부 모형을 만든다고 할게요. 04:49 : 이 모형을 만드는데 모형을 만들 때 데이터를 만약에 이렇게 100%가 있다고 할게요. 04:58 : 이 100%의 데이터 전체를 가지고 모형을 만들었을 때 만들면 당연히 좋은 모형이 나오거나 나쁜 모형이 나올 수 있습니다. 05:06 : 그런데 이 모형이 좋은 모형인지, 나쁜 모형인지 파악할 수 있는 데이터가 있어야 되겠죠. 비교 대상이 있어야 될 거예요. 05:16 : 그렇기 때문에 이런 적격 여부 모형을 확인할 수 있는, 검증할 수 있는 데이터가 있어야 됩니다. 05:23 : 그래서 보통 데이터 분석 모형을 만들 때는 이렇게 100% 전체 데이터를 가지고 이렇게 모형을 만드는 게 아니라 05:32 : 이 중에서 50% 정도는 모형을 만드는 데 사용하고요. 나머지 30% 정도 가지고는 이 모형을 검증할 겁니다. 05:46 : 이 모형이 뒤에서 나오겠지만 오버피팅 하는지, 아니면 언더피티 한다든지 이런 것들을 검증하는 단계가 있어야 되고 05:56 : 그다음에 마지막으로 테스트를 하는 20%의 데이터로 가지고 테스트를 할 겁니다. 06:02 : 80% 가지고는 데이터 모형에 대해서 최종적으로 만들어 갈 때 사용을 하고 06:09 : 그다음에 남은 20%로 이런 테스트를 수행을 한다. 라고 생각을 하시면 돼요. 06:16 : 그렇기 때문에 저희가 데이터 마이닝을 할 때는 그냥 전체를 가지고 이렇게 모형을 만드는 게 아니라 데이터 모형에 대한 테스트 데이터 06:26 : 그다음에 밸리데이션 데이터 이거를 통해서 검증을 진행을 하고 06:31 : 마지막 20%로 테스트. 시험을 확인해 보는 그런 데이터로 분할을 해서 보통 분석을 수행합니다. 06:40 : 그래서 이런 방법들을 통해서 데이터를 분할하고 분석에 직접 적용을 해서 분석을 수행을 하실 수 있을 겁니다. 20:00 :	04:12 ~ 06:16		검수 상태 : 불통
lADsP 완전 정복l 데이터 분할_2 i03po9aGsOI	00:06 : a라는 모형을 만드는데 100% 데이터 전체를 가지고 모형을 만들게 되면 이 모형을 검증할 수 있는 방법이 없어진다고 했어요. 00:15 : 검증할 수 있는 데이터가 있어야 a 모형이 얼마만큼 성능이 나는지를 00:21 : 확인을 할 수 있고 현업에서 바로 사용을 한다든지, 아니면 이 모형을 튜닝을 한다든지 00:27 : 그런 쪽으로 사용을 할 수 있는데 이렇게 100% 전체를 가지고 00:32 : 데이터 모형을 만들게 되면 검증을 할 수가 없다고 말씀을 드렸습니다. 00:38 : 그래서 보통은 데이터를 50%를 가지고 모형을 만들고, 30%로 검정을 하고, 그다음에 20% 가지고 시험을 한다고 했습니다. 00:50 : 이것에 대해서 간략하게 이유를 설명을 드렸는데 그러면 이번 시간에는 이 데이터 마이닝을 위한 데이터 분할에 대한 00:59 : 개념에 대해서 한번 자세히 알아보고 다른 방법들에 대해서도 한번 확인을 해 볼 수 있도록 하겠습니다. 01:06 : 왼쪽에 보시면 저희가 데이터 마이닝을 위한 데이터 분할에 대한 표를 하나 설명을 드릴게요. 01:13 : 자 가장 먼저 왼쪽에 보시면 구분을 총 3가지로 합니다. 01:17 : 가장 먼저 나오는 게 구축용 트레이닝 데이터라고 표현을 해요. 01:22 : 보통 비중은 전체 데이터에서 50%에 해당하는 데이터를 가지고 분석에 활용을 한다. 라고 말씀을 드릴 수 있어요. 01:32 : 그래서 이거를 어떻게 활용하느냐. 추정용 훈련용 데이터라고도 불리는 이 구축용 데이터는 01:39 : 데이터마이닝을 통해서 모델을 만드는 데 활용을 하는 게 바로 구축용 데이터다. 라고 기억을 하시기 바랍니다. 01:48 : 이 50%를 가지고 데이터마이닝 모형, 모델 이런 것들을 만들어 낼 수가 있어요. 01:55 : 그래서 만들어내서 구축을 먼저 진행을 합니다. 01:59 : 그리고 난 다음에 검정용 밸리데이션 데이터 약 30%의 데이터를 가지고 구축된 모형을 한번 평가를 먼저 해 볼 거예요. 02:11 : 구축된 모형이 과대 추정 또는 과세 추정을 미세 조정하는 데 활용한다. 라고 적혀 있습니다. 02:18 : 이게 검정용 데이터 가지고는 과대 추정 오버피팅, 과소 추정 언더피팅 이런 것들을 확인하고 미세 조정하는 데 활용해요. 02:32 : 오버피팅이나 언더피팅 같은 경우는 의사결정나무에서 한번 설명을 드릴 건데 02:39 : 간단하게 말씀을 드리면 이 과대 추정 같은 경우는 구축용 데이터를 통해서 나타난 결과가 매우 좋게 나타났는데 02:47 : 검정용 데이터를 통해서 데이터에 검증했을 때는 모형의 성능이 떨어진다. 라고 했을 때, 02:53 : 이 학습용 데이터에 대해서 너무 학습이 많이 돼서 그 학습용 데이터에 맞춤형 모형이 되어서 검정용 데이터에서 좋은 성능을 못 내게 된다. 03:04 : 이걸 보통 오버피팅이라고 표현하고요. 반대로 학습용 데이터에서는 성능이 좋지 않지만 03:11 : 검정용 데이터는 성능이 매우 좋게 나타난다. 라고 이렇게 나타나면 03:16 : 학습용 데이터에 대해서는 학습이 잘 이루어지지 않았기 때문에 언더피팅이 됐다. 라고 표현을 주로 합니다. 03:23 : 그래서 이런 오버피팅이나 언더피팅을 확인하는 게 검정용 데이터를 통해서 확인을 할 수가 있습니다. 03:33 : 30%의 데이터를 가지고는 이렇게 검정용 데이터를 만들어 낼 수 있다. 03:40 : 그리고 시험용 데이터라는 것들도 마지막으로 만들어낼 수 있습니다. 전체 20%의 데이터입니다. 03:47 : 이 시험용 테스트 데이터는 테스트 데이터나 과거 데이터를 활용하여 모델의 성능을 검증해 활용한다. 라고 적혀 있어요. 03:57 : 최종적으로 이 시험용 데이터를 통해서 이 모형의 성능을 확인해 볼 수 있습니다. 04:04 : 정확도가 좋다, 아니면 민감도가 좋다, RMSE가 좋다. 04:09 : 이런 것들을 시험용 데이터를 가지고 확인을 해 볼 수 있다. 라고 말씀을 드릴 수가 있어요. 04:16 : 보통은 분석을 할 때는 데이터가 시간이 있을 거예요. 어느 기간부터 어느 기간까지 데이터를 받았다. 04:25 : 과거부터 현재까지의 데이터를 만약에 가지고 있다. 라고 할 때, 보통은 과거부터 10년이라고 칠게요. 04:38 : 10년이면 과거부터 5년까지 이때까지를 50%겠죠. 그러면 이거를 구축용 데이터로 쓰고요. 04:50 : 이 나머지 5년부터 8년까지 이거를 이게 30% 정도 되겠죠. 이게 검정용으로 쓰고요. 05:01 : 마지막 8년부터 현재까지 2개년 데이터를 가지고 20% 이걸로 보통 시험용 데이터로 한다. 05:11 : 이런 식으로 데이터 분할을 해서 보통은 분석의 활용을 합니다. 05:18 : 이런 식으로 대기업이나, 데이터가 많은 곳에서는 이런 식으로 데이터를 3가지 형태로 분할을 해서 데이터 마이닝 모형을 구축을 할 수 있을 거예요. 05:29 : 근데 데이터가 많은 곳이 있다면 당연히 적은 것도 있겠죠. 많은 곳만 기준으로 해서 봤을 때는 이런 방법이 있지만 05:40 : 적은 곳은 그러면은 어떤 방법으로 데이터를 분할을 할 수 있을까에 대한 고민도 있으실 겁니다. 05:48 : 그래서 데이터가 적을 때 양이 충분하지 않을 때는 어떤 방법이 있는지 한번 학습을 해보겠습니다. 05:56 : 그 밑에 보시면 데이터의 양이 충분하지 않거나, 아니면 입력 변수에 대한 설명이 충분할 때는 두 가지의 방법이 있습니다. 06:06 : 가장 첫 번째 홀드아웃이라는 방법이 있고요. 아니면 교차확인. 크로스 밸리데이션이라는 방법이 있습니다. 06:13 : 두 가지 방법을 이용해서 데이터를 또 분할을 할 수 있을 겁니다. 06:20 : 가장 먼저 홀드아웃 방법에 대해서 개념을 한번 볼게요. 주어진 데이터를 랜덤하게 두 개의 데이터로 구분을 합니다. 06:29 : 그래서 구분해서 사용하는 방법이에요. 그래서 주로 학습용과 시험용 데이터로 분리를 해서 사용을 합니다 06:39 : 전체의 데이터가 이만큼 있다고 칩시다. 06:42 : 100%가 있는데 데이터 개수가 많지 않기 때문에 주어진 데이터에 대해서 만약에 이렇게 칼럼 레코드가 있을 거예요. 06:53 : 1번, 2번, 3번, 4번, 5번, 6번, 이런 식으로 해서 만약에 1,000개가 있다. 07:00 : 1,000개가 있는데 여기에서 랜덤하게 두 개의 데이터로 구분해요. 07:05 : 그래서 랜덤으로 레코드 번호를 이렇게 뽑아 가지고 데이터를 추출할 수도 있겠죠. 추출을 해서 데이터를 두 개로 분리를 할 거예요. 07:15 : 100% 중에서 훈련용이랑 아니면은 시험용 이렇게 분리를 하는데 일반적으로는 보통 훈련의 파이가 더 많아요. 07:29 : 보시면 70%가 되면, 시험에는 30%의 데이터를 사용을 하고요. 80%의 훈련에 사용하면 20%는 시험에 사용한다. 07:40 : 그래서 70%나 80%를 주로 훈련에 사용하고, 거기에 맞춰서 이렇게 퍼센트가 분리가 된다. 라는 점 기억을 하시기 바랍니다. 07:50 : 그래서 랜덤하게 두 개로 구분을 하고 그다음에 이게 약 70%와 30%, 아니면 80%와 20%로 분리가 된다. 라는 점 기억을 하시기 바랍니다. 08:00 : 이 방법이 바로 홀드아웃 방법이다. 라고 기억을 하시면 돼요. 08:07 : 홀드아웃 방법은 두 가지로 분리를 하는 방법이다. 라고 기억을 하시고요. 08:12 : 그다음에 나오는 게 교차확인. 크로스 밸리데이션이라는 방법이 있습니다. 08:18 : 주어진 데이터를 k 개의 하부 집단으로 먼저 구분을 해요. 08:23 : 그래서 k개의 하부 집단으로 구분하고 k-1개는 학습용, 나머지 하부 집단은 검정용으로 사용을 해요. 08:38 : 그래서 모형의 학습을 계속 반복해서 시킵니다. 그래서 k번 반복 측정한 결과를 평균된 값으로 최종값을 사용한다. 라고 적혀 있습니다. 08:47 : 오른쪽에 그림을 간단하게 그려서 설명을 드리면 이렇게 데이터가 있다고 칩시다. 있을 때 k개로 이렇게 제가 구분을 할게요. 08:58 : 하면 1번부터, 2번, 3번, 4번, k-1 번, k번, 이렇게 해서 데이터를 k개 이렇게 분할을 한다고 하부 집단으로 구분을 먼저 합니다. 09:09 : 이렇게 하부 집단으로 구분을 진행을 한 다음에 자 k-1개, 1번이 제가 밸리데이션 셋으로 만약에 지정하면 나머지 2번부터 k번까지는 k-1이겠죠. 09:25 : 이거는 트레인 셋으로 될 거예요. 09:28 : 그래서 이렇게 만들어진 모형으로 밸리데이션 셋을 통해서 검증을 한번 진행을 하겠죠. 그래서 나타난 결괏값이 있을 겁니다. 09:37 : 첫 번째 1번 데이터에 대해서 진행을 했다면, 그다음에는 1번 데이터가 아니라 2번 데이터에 대해서 진행을 할 겁니다. 09:44 : 그래서 2번 데이터를 밸리데이션 셋이라고 1번, 3번, 4번 쭉쭉 k-1 이런 식으로 트레인 셋이 되게 될 거예요. 09:56 : 그래서 이렇게 만들어진 모형으로 또 밸리데이션으로 검증을 할 거고요. 이 2번에 됐다가, 이제 3번이 되고, 그다음에 4번이 되고 10:05 : 그다음에 쭉 다 한 다음에 k-1, k번째까지 하고 이거에 해당하지 않는 데이터로는 모두 학습을 진행할 거예요. 10:14 : 그렇게 해서 각각마다 밸리데이션 셋과 확인을 했을 때, 평균을 내서 최종값으로 사용하는 방법을 10:23 : 크로스 밸리데이션. 교차확인이라고 해요. 10:26 : 그래서 보통이 k 개로 구분을 한다고 하시면 보통 K fold validation이라고 표현을 많이 합니다. 10:37 : K fold validation을 주로 사용을 한다. 텐 폴드도 있고, 아니면 세븐 폴드. 이런 식으로 폴드의 개수는 정할 수가 있을 거예요. 10:45 : 그래서 이런 식으로 데이터가 개수가 적거나 아니면 입력된 수에 대한 설명이 충분할 경우에는 두 가지 방법. 10:55 : 홀드아웃이라든지 교차확인 방법을 사용하실 수 있다. 라는 점 반드시 기억을 하시기 바랍니다. 11:03 : 이 홀드 아웃이라든지 교차확인 같은 경우는 ADsP 과정에서 단답형으로도 나온 적이 많고요. 11:10 : 아니면 직접 물어보는 객관식으로도 시험 문제에 나온 경우가 많기 때문에 기억을 반드시 해주시기 바랍니다. 20:00 :	00:06 ~ 02:04		검수 상태 : 불통
lADsP 완전 정복l 데이터 분할_3 / 성과 분석_1 1F7GZpwAGWc	00:06 : 데이터마이닝 모델을 만들기 위해서 이렇게 데이터를 분할을 했어요. 00:10 : 그래서 구축용 데이터로 모형을 만들어서 검증을 했습니다. 00:17 : 그러면은 남은 게 시험을 통해서 성과 지표라는 게 나타나야 될 거예요. 00:22 : 이 모형이 좋고 나쁘고에 대해서 판단할 수 있는 그런 지표 값들이 반드시 있어야 합니다. 00:30 : 그렇기 때문에 모형을 평가하는 방법이 있을 거예요. 모형평가를 반드시 진행을 해야 됩니다. 00:36 : 그래서 이 모형평가에 대해서 한번 같이 학습을 해 볼 수 있도록 하겠습니다. 00:41 : 데이터 마이닝의 모형평가를 보시면 현업에서 사용할 수 있을지를 주어진 자료로 모형을 평가한다. 라고 적혀 있습니다. 00:50 : 그래서 데이터 분할을 통해서 확보한 테스트 데이터를 통해 오분류율을 먼저 구하고요. 01:00 : 그리고 오분류율에 따라서 모형을 사용할지 다른 모형을 생성할지에 대해서 판단을 진행할 겁니다. 01:08 : 그리고 오분류율은 분석 목적이나 사용되는 용도에 따라 기준이 다르게 적용이 될 수 있다. 라고 말을 할 수 있어요. 01:20 : 그래서 데이터 마이닝에 대한 모형을 한번 평가하는 데 가장 많이 사용되는 방법에 대해서 먼저 설명을 드릴게요. 01:29 : 앞에서 데이터 마이닝에 가장 많이 사용되는 방법이 분류규칙이라고 말씀드렸어요. 01:35 : 분류규칙이라고 할 수 있는데 분류규칙 같은 경우는 분류분석이라고 있어요. 01:40 : 분류 classfication. 그래서 올바르게 분류가 되었다. 올바르게 분류가 되지 않았다. 01:46 : 이런 것들로 확인을 할 수 있는데 이것을 통해서 볼 수 있는 방법이 바로 오분류표라는 것을 한번 확인을 할 수가 있어요. 01:53 : 그래서 저희가 성과분석을 하는데 오분류표에 대한 추정을 한번 확인을 해 볼 수 있도록 할게요. 02:02 : 가장 먼저 나온 게 왼쪽에 표를 기준으로 해서 주로 학습을 할 건데 02:07 : 이것을 좀 이해하기 쉽게 말씀을 드리면 어느 병원에 의사다. 라고 해 볼게요. 02:15 : 의사인데 암이 맞다, 아니다. 라고 판정하려는 사람이 있고 실제로. 그것을 모형이 예측을 할 수도 있을 거예요. 02:24 : 그래서 실제 의사가 판단했을 때, 의사가 아니라 실제 암에 걸렸는지에 대해서 먼저 확인을 할 수가 있고요. 02:32 : 아니면 분석 모형이 예측을 할 수도 있을 거예요. 예측을 할 수 있는데 이게 음성이다, 양성이다. 02:45 : 이런 식으로, 표로 나타낼 수 있을 겁니다. 그래서 음성인 사람, 양성인 사람. 02:50 : 실제로 음성인데 음성인 사람. 실제 양성인데 음성이라고 판단한 거. 실제 음성인데 양성이라고 판단한 거. 실제 양성인데 양성이라고 판단한 거. 03:02 : 이런 식으로 표를 그려볼 수 있을 거예요. 이런 식으로 표를 나타내는 게 오분류표라고 하는 거예요. 맞는 것도 있고, 틀린 것도 있다. 03:13 : 그래서 오분류표라고 하는데, 왼쪽에 컨디션이라고 표시된 것은 실제값을 의미하고 있고 03:20 : 그다음에 왼쪽 x축에는 prediction이라고 해서 예측이라고 표현을 할 수 있을 겁니다. 03:27 : 보시면 positive는 긍정, negative는 부정이라고 표현을 할수도 있어요. 그래서 이런 식으로 결괏값이 나타나는데 03:36 : a, b, c, d에 대해서 말씀을 드렸어요. 이러면 a이고, 저러면 b다. 말씀 한번 드렸는데 이 a, b, c, d에 대해서 표시를 할 수가 있을 겁니다. 03:49 : 왼쪽에 positive, negative 표현을 했기 때문에 이걸 가지고 어떻게 표현할 수가 있느냐. 03:55 : 제일 먼저 TP라는 게 나와요. TP는 True Positive라고 해요. 그래서 실제값과 예측값이 모두 True인 빈도예요. 04:04 : 만약에 오른쪽 표를 보시면은 a에 해당할 거고요. 음성을 음성으로 잘 예측한 거예요. 음성을 음성이다. 라고 해서 a로 만든 것을 TP라고 표현을 합니다 . 04:19 : 그래서 True Positive라고 표현을 하고요. 그다음에 TN이라는 게 있습니다. True Negative입니다. 04:28 : True Negative는 실제값과 예측치 모두 false인 거예요. True Negative는 오른쪽 표에서는 d에 해당합니다. 04:40 : 그래서 양성을 양성으로 맞힌 거예요. 양성이라고 표현하는 거. 이것을 양성을 True Negative라고 표현을 합니다. 04:49 : 앞에 보시면 True라고 붙었죠. 그러면 둘 다 맞는 값으로 예측을 했다. 라고 기억을 하시면 됩니다. 04:59 : 그래서 이렇게 True Positive라든지, True Negative라고 표현을 할 수가 있다. 05:05 : 그러면 반대로 틀리게 맞히는 경우도 있을 거잖아요. 05:09 : 실제값이 뭔데 예측을 잘못했다든지, 예측값이 뭔데 실측값이 다르다든지, 그렇게 해석할 수 있는 게 FP라는 게 있습니다. 05:16 : FP라는 것은 FP는 실제값은 false예요. 실제값은 false입니다. 근데 true로 예측한 거예요. 05:31 : 실제값은 false인데 true로 예측한 거. 그래서 여기서는 이 값이고요. 오른쪽 그림에서는 b의 값이 해당이 될 겁니다. 05:42 : 반대로 FN 같은 경우는 False Negative예요. 실제는 true예요. 실제는 true인데 false로 예측한 거예요. 예측은 negative이다. 그렇기 때문에 여기에 해당하는 값. 05:55 : 그래서 False Negative FN이라고 표현을 합니다. 앞에 다 false라는 값이 붙는다. 라고 기억을 해 주시기 바랍니다. 06:06 : 이런 식으로 값이 나타나는데 이런 값들을 통해서 실제 분석 모형을 평가를 할 수 있을 겁니다. 06:15 : 컨디션과 실제값과 예측값에 대해서 이렇게 표를 가지고 한번 확인을 해 볼 건데 가장 먼저 나오는 게 정분류율이라는 게 있어요. 06:27 : 정분류율 같은 경우는 전체 관측치 중에서 실제값과 예측치가 일치한 정도예요. 전체 관측치 이 4가지 값을 다 더할 거예요. 06:36 : 아까 전에 있던 a, b, c, d를 다시 적어 보면 보통 표현을 0101 이렇게도 표현을 많이 합니다. 했을 때 왼쪽을 기준으로 그래도 한번 볼게요. 06:47 : 어큐리시라고 하면은 전체 관측값. 보면 TP부터 FP, FN, TN 전체를 더한 것 중에서 잘 맞힌 거예요. 06:58 : 그래서 모형이랑 실제값이 맞는 거. 똑같은 값을 accuracy라고 표현을 합니다. 그래서 전체값 여기서 보시면 왼쪽에 값들이 다 나와 있어요. 07:09 : 보시면 TP부터 한번 다 더해볼게요. 10+90+895+5=1,000이에요. 07:29 : 1,000분에 True Negative를 더했을 때 905라는 값이 나오기 때문에 07:39 : 결과적으로는 90.5%다. 정분류율은 90.5%가 나왔다. 라는 것을 확인을 하실 수 있을 겁니다. 07:50 : 그와 반대로 오분류율 같은 경우는 실제 관측치 중 실제값과 예측치가 다른 정도예요. 08:02 : 그렇기 때문에 TP+TN이 아니라 FN+FP예요. 아니면 전체 결괏값 1 빼기 accuracy가 될 수 있어요. 08:12 : 1 빼기 accuracy를 하면 이렇게 오분율이 나타날 수가 있다. 그래서 이런 식으로 표현이 된다. 라고 기억하시고 08:22 : 보통 오분류표에서 가장 많이 보는 방법이 정분류율이라는 거예요. 정확도. 근데 여기선 정확도라고 표현을 안 하고 정분류율이라고 표현을 합니다. 20:00 :	00:17 ~ 02:30		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :

이전 다음