남은 문제 : 36

문제 1331

과대적합(Overfitting)은 통계나 기계학습의 모델에서 변수가 너무 많아 모델이 복잡하고 과대하게 학습될 때 주로 발생한다. 다음 중 과대 적합에 대한 설명으로 가장 부적절한 것은?

보기

1.생성된 모델이 훈련 데이터에 너무 최적화되어 학습하여 테스트 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다.
2.학습 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생한다.
3.변수가 너무 많아 모형이 복잡할 때 생긴다.
4.과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방지할 수 있다.

정답

해시
태그

lADsP 완전 정복l 성과 분석_2 h9IKAEVHcHs	00:06 : positive가 중요하다. 아니면 negative가 중요하다. 라는 것에 따라서 지표가 필요하다고 생각이 들 거예요. 00:14 : 그래서 그렇게 사용되는 것이 바로 민감도라는 것이 있고, 특이도라는 것이 있습니다. 00:22 : 민감도는 sensitivity라고 표현을 하고요. 특이도는 Specificity. 이런 식으로 표현을 합니다. 00:31 : 그래서 민감도 같은 경우는 positive를 실제 positive를 positive라고 잘 예측하는 거예요. 00:39 : 그래서 실제 positive를 positive라고 잘 예측한 정도, 특이도 같은 경우는 실제 false negative를 negative라고 잘 예측한 정도예요. 00:51 : 그래서 보시면 민감도 같은 경우는 TP+FN 분에 TP가 분자에 가고요. 특이도 같은 경우는 TN+FN 분에 TN이 분자로 갑니다. 01:11 : 그렇기 때문에 보시면 민감도는 positive를 positive로 예측을 한 거고 01:18 : 특이도는 negative를 negative로 잘 맞힌 것을 의미한다. 라는 지표로 기억을 하시면 될 거예요. 01:25 : 그래서 밑에 결괏값을 보시면은 이렇게 sensitivity나 Specificity를 구할 수 있다. 라고 생각해 볼 수 있을 겁니다. 01:35 : 앞에서 말씀드린 정분류율이 있죠. 01:38 : 정분류율이라는 게 보면 이것은 틀린 거든, 맞는 거든 일단 잘 맞힌 거를 의미하는 정분류율 이것과 01:49 : 그다음에 앞에서 말씀드린 민감도 그리고 특이도 같은. 01:52 : 세 가지 지표가 모두 높으면 우수한 모형이다. 라고 판단을 할 수 있습니다. 01:59 : 이 세 가지 지표 모두 높은 모형은 우수한 모형이다. 라고 판단을 할 수 있다. 라는 점 반드시 기억하시기 바랍니다. 02:08 : 세 가지 지표에 대해서 이렇게 볼 수도 있는데 보통은 분석을 하실 때는 02:14 : 아마도 세 가지 지표를 다 보지만, 기준이 보통은 positive를 기준으로 하는 게 많아요. 02:21 : 그래서 분석에서는 positive로 모형의 성능을 많이 판단합니다. 02:26 : 그래서 positive를 실제 positive인 것을 positive로 맞힌다거나, 실제 negative를 positive로 맞힌다거나, 이런 거에 대해서 주로 확인을 많이 해요. 02:37 : 그렇기 때문에 민감도 같은 경우는 그대로 들어갈 거예요. 02:41 : 민감도는 positive를 positive로 예측했기 때문에 민감도. 그리고 negative를 negative로 예측한 거는 특이도지만 negative를 positive로 예측한 것은 1-특이도입니다. 02:58 : 민감도, 특이도 쓰지만. 민감도와 1-특이도. 이거를 관점 positive를 기준으로 본다고 했을 때는 이 두 가지 지표를 주로 많이 활용을 해요. 03:08 : 그래서 앞서 말씀드린 정분류율이 높고, 민감도가 높고 1- 특이도는 반대로 낮아야 되겠죠. 03:17 : 특이도는 높을수록 좋지만 1-특이도는 실제 negative인데 positive로 맞힌 거니까 낮아야 됩니다. 03:26 : 정분류율 민감도는 크고 1-특이도는 낮을수록 좋은 모형이다. 라고 생각을 하시기 바랍니다. 03:35 : 그래서 이렇게 나온 민감도라든지, 1- 특이도를 가지고도 보통 성과지표를 새로 하나 만들어 낼 수가 있어요. 03:46 : 그게 바로 roc 커브라는 것이 있습니다. 여기서 roc 패키지라고 했는데, roc 커브라고 표현을 해요. 그래서 가로축에는 1-특이도예요. 03:58 : 그래서 가로축에는 1-특이도로, 세로축에는 민감도. sensitivity 이 값을 두고 시각화한 그래프를 roc 커브라고 표현을 합니다. 04:11 : 여기서 그림을 한번 보시면 파란색으로 커브가 되어 있는 것을 볼 수 있을 거예요. 04:16 : 그래서 각각마다 a 여기는 b라고 할게요. 이렇게 4개로 표현을 할 수 있다고 합시다. 04:22 : 이렇게 각각 모형이라고 생각을 했을 때, 민감도는 커야 되고, 1-특이도는 낮은 게 좋다고 했어요. 이런 모형이 좋은 모형이다. 라고 말씀을 드렸습니다. 04:34 : 그래서 1- 특이도 값이 같은 값을 기준으로 해서 한번 확인을 해 볼게요. 04:40 : 그래서 각 모형을 민감도를 비교해 봤을 때, 얼마나 민감도가 달라지는지 볼 수가 있을 거예요. 04:47 : 만약에 특이도라는 값이 0.2를 기준으로 한번 보겠습니다. 0.2를 기준으로 선을 그었을 때 0.2를 기준으로 봤을 때 04:56 : 각각 모형 d라는 모형에 대해서는 민감도가 이만큼, c라는 모양은 민감도가 이만큼, b라는 모형은 민감도가 이만큼, a라는 모양은 민감도가 이만큼 05:07 : 나타나는데 민감도는 클수록 좋다고 했죠. 05:10 : 그러면 a라는 모형이 가장 좋은 모형이다. 라는 것도 이렇게 확인을 할 수 있을 거예요. 05:17 : 근데 한 지점에 대해서 확인을 했을 때, 이런 결과를 볼 수 있다. 라는 점 기억하시고 05:24 : 근데 이 그래프 자체가 0에서 시작합니다. 그래서 1에서 끝나요. 0에서 시작해서 1에서 끝나는 누적 그래프예요. 05:34 : 그래서 a라는 모형이 제일 좋다고 말씀드렸는데 누적값을 가지고 다 그어서 봐도 a라는 모형이 제일 값이 높게 나올 거예요. 05:43 : 그래서 a라는 모형이 가장 좋은 모형이라고 할 수 있는데, 이 a라는 모형이 가장 좋은 모형인 걸 확인을 해봤을 때 이렇게 엄청 불룩해요. 05:54 : 볼록하면 볼록할수록 좋은 모형이다. 라고 기억을 하시면 돼요. 그리고 모형을 만들었는데 100%를 다 맞히는 모형이 있어요. 06:04 : 100%를 다 맞히는 모형은 이렇게 사각형이 되겠죠. 06:08 : 그래서 0일 때, 1-특이도가 0일 때 1이라는 값으로 가기 때문에 특이도가 작고 민감도가 높은 가장 최적의 값은 06:18 : 이렇게 형태가 나타날 때 가장 좋은 모형이 될 수 있다. 라고 기억을 하시면 됩니다. 06:25 : 그리고 그래프로 보는 것도 좀 중요하긴 한데, 판단하기 위해서는 보통 수치로 보셔야 명확할 거예요. 06:35 : 수치로 보는 게 명확해서 이 그래프 위쪽의 면적을 비교할 수 있습니다. 06:40 : 그래프의 위쪽 면적을 한번 비교를 해보면 a라는 모형의 위쪽 면적 같은 경우는 이만큼 결과가 나올 거예요. 06:48 : 이 면적을 auroc라고 합니다. area under roc라고 해요. 그래서 정확도에 측정 기준으로 나타낼 수 있어요. 07:00 : 그래서 각각 모형에 대해서 이렇게 roc 모형을 한번 확인을 해 볼 수 있을 겁니다. 07:10 : 그래서 이렇게 roc 모형을 확인을 해 봤을 때 보통 보면 0.9에서 1 사이는 아주 excellent 한 모형이다. 라고 표현을 할 수 있고요. 07:20 : 아니면 0.8에서 0.9는 good. 좋은 모형, 그리고 0.7에서 0.8은 fair 하다. d라는 모형이 있다고 치면은 0.6에서 0.7의 값이 나타난다. 하면 07:32 : poor 한 모형이다. 보통 여기서부터는 모형을 사용을 안 해요. 보통 모형 사용 안 합니다. 07:40 : 그리고 0.5부터 0.6은 fail. 실패한 모형이다. 라고 판단을 한다. 반드시 기억을 해 주시기 바랍니다. 20:00 :	06:48 ~ 07:58		검수 상태 : 불통
lADsP 완전 정복l 성과 분석_3 QDRrQSFfXI4	00:05 : 정확도와 재현율이라는 게 있어요. 이것은 positive라는 기준으로 본 것이에요. 00:11 : 앞에서 본 것 positive 하나, negative 한 거에서 봤지만 이것은 positive를 기준을 봤을 거예요. 00:19 : 최근에 오분류표의 지표 중에서 많이 사용되는 지표가 텍스트 분석 등에서 많이 사용되는데 00:26 : 이게 바로 정확도라든지 재현율이라는 지표. 텍스트, 이미지 분석에서 많이 사용하는 게 00:35 : precision과 recall이라는 것이 있다. 라는 점 기억하시기 바랍니다. 00:41 : 각각의 지표에 대해 설명을 드리면 아까 말씀드린 것처럼 2개 다. positive에 관한 지표이고 00:49 : precision 같은 경우는 참으로 예측된 것 중에서 실제 참인 거예요. 참으로 예측된 거. 01:00 : 그렇기 때문에 TP+ FP분에 TP가 될 거고요. 재현율 같은 경우는 실제 참인 값 중에 참을 얼마나 찾았는지에 대한 비율이에요. 01:14 : 그래서 실제 참인 값 중에 얼마나 참이냐. recall 같은 경우는 앞에서 봤던 민감도랑 똑같아요. 01:21 : 민감도랑 똑같다는 점 기억을 하시면 TP+FM분에 TP. 이거는 민감도와 똑같다. 이런 거 반드시 기억하시고. 01:35 : 위에 이 precision이라든지 recall을 통해서 F1 score라는 것을 만들어서 주로 지표로 사용을 많이 하고 있습니다. 01:44 : 그래서 앞에서 말씀드린 민감도, 특이도, 그리고 정확도, 재현율을 가지고도 다양한 지표를 만들어 낼 수 있고요. 01:56 : 그리고 F1 score라는 걸 만들어서 가중 평균을 낸다든지, 조합 평균을 내서 따로 지표를 만들어서 사용을 한다. 라는 점 반드시 기억을 하시기 바랍니다. 02:09 : 그러면 이런 precision이나 recall 이외에, roc 커브 이외에도 따로 성능 평가를 할 수 있는 방법이 하나 있어요. 02:19 : 그것은 시험에 나올 수 있기 때문에 한번 간략히 말씀을 드리고 설명을 한번 드리고 넘어가 볼게요. 02:26 : 또 다른 성능 평가 방법 중에 하나가 이익도표량이 있습니다. 02:32 : lift chart라는 게 있어요. 이익도표는 분류 모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 02:46 : 임의로 나눈 각 등급별로 반응검출률이라든지, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표다. 라고 할 수 있습니다. 02:56 : 이것에 대해서 간략하게 한번 설명을 드리면 네이버 플레이스에서 물건을 판매한다고 한번 생각을 해봅시다. 03:07 : 스토어에 방문하는 고객이 2천 명이라고 해요. 2천 명이라고 할 때, 이 중에 381명은 기본적으로 물건을 사 간다고 해요. 03:16 : 그래서 아무런 액션을 안 취해도 사 가는 확률이 바로 baseline lift라고 표현을 합니다. 03:23 : 그래서 baseline lift가 2천 명 중에서 381명은 그냥 사 가는 거예요. 03:29 : 방문했을 때. 이런 거를 baseline lift라고 해서 19.05%로 나타나는 것을 확인을 할 수 있을 거예요. 03:38 : 그리고 이제 2천 명에 대해서 모형을 한번 만들어 볼 거예요. 03:43 : 물건을 살 것 같은 사람 그리고 물건을 안 살 것 같은 사람. 이런 사람들이 있겠죠. 03:52 : 이런 것들에 대해서 점수를 배점할 거예요. 03:55 : 당연히 물건을 살 것 같은 사람에게는 높은 점수를, 안 살 것 같은 사람에게는 낮은 점수를 주는 형태로 모형을 개발하고 04:04 : 점수를 부여해서 내림차순으로 데이터를 나열할 거예요. 04:08 : 그러면 점수가 높은 사람이 먼저 나타나고, 낮은 점수의 사람들이 뒤에 나타나는 형태로 데이터를 나열하고요. 04:16 : 그리고 각각의 동일한 빈도로 데이터를 10개의 구간으로 나눕니다. 그래서 첫 번째 구간을 보시면 총 174명이 나오고요. 04:26 : 두 번째는 110명, 이런 식으로 분포하는 것을 확인을 할 수 있을 거예요. 이런 프리퀀시를 기반으로 해서 구간별 response를 구했을 때 04:37 : 첫 번째 구간은 200명 중에서 174명이 샀기 때문에 87%가 나옵니다. 04:45 : 그리고 두 번째 같은 경우는 200명 중에서 110명이 샀기 때문에 55%가 나오고요. 04:52 : 이걸 통해서 1등급에 해당하는 사람이 물건을 살 확률이 87%나 되구나. 라는 것을 알 수 있을 겁니다. 05:01 : 그래서 이 response를 baseline lift로 나누어 봤어요. 이걸로 한번 나눠봤습니다. 05:07 : 나눠봤을 때 아무것도 안 해도 19%는 물건을 사 가는 사람들인데 05:13 : 그럼 baseline lift에 비해서 물건을 얼마나 더 사 가느냐를 알 수 있고, 이거를 바로 lift라고 표현을 할 수 있을 겁니다. 05:22 : 그렇기 때문에 1구간을 보시면 아무것도 안 했을 때에 비해서 약 4.57배는 물건을 사 간다는 것을 알 수가 있어요. 05:33 : 이런 식으로 만들어가는 것을 lift라고 하고, 이걸로 그래프를 만든 게 lift chart라고 할 수 있습니다. 05:41 : 리프트 차트가 이런 식으로 나타날 거예요. 05:44 : 리프트 차트는 높다가 쭉 떨어진 이런 모형이 좋은 모형이다. 라고 할 수 있습니다. 05:50 : 왜냐면 여기 위에 있는 이 세 가지 한 3, 4등급까지 사람들만 모아서 프로모션을 한다든지, 그런 식으로 진행을 할 수 있기 때문에 05:57 : 이렇게 앞에만 높다가 뒤가 쭉 떨어지는 모형이 좋은 모형이다. 해서 좋은 모형은 이런 식으로 나타날 수도 있고요. 06:05 : 아니면 이렇게 계단식까지도 괜찮아요. 근데 균일한 분포. 이렇게 나타나는 것은 좋은 모형이다. 라고 할 수가 없습니다. 06:13 : 성과분석에서 오분류표 이외에도 오분류표 같은 경우는 분류라고 해서 나타나는 결괏값들이 이렇게 하나하나 값들로 나타날 거예요. 06:25 : 이렇게 범주가 있게 분류가 될 거예요. 06:28 : 근데 이런 분류 값이 아니라 만약에 주가 예측값. 주가 아니면, 점수 이런 것들처럼 연속형 변숫값, 연속형 값들이 06:39 : 만약에 성과분석 지표로 활용될 수 있는 게 RMSE라는 것과 MSE라는 것이 있다. 라는 것을 기억해 주시기 바랍니다. 06:48 : 시험에 한 번씩 이런 개념이 나타날 때가 있어요. 06:51 : 그래서 RMSE 같은 경우는 root mean square error라고 해서 회귀모형의 성과측정에 주로 활용하고 있습니다. 07:01 : 그래서 추정값 또는 모델이 예측값과 실제 환경에서 관찰되는 값의 차이를 다룰 때 흔히 사용되는 측도다. 07:11 : 그래서 0에 가까워질수록 정밀도가 높아진다. 0에 가까울수록 좋다. 예측한 값과 원래 값이 동일하다. 해서 07:20 : 잘 예측하는 모형이다. 라고 할 수 있기 때문에 기존에 있던 MSE라는 값에 루트를 씌우는 값이다. 이렇게 기억을 하시면 되고요. 07:28 : 두 번째로는 MAE라는 값이 있습니다. MAE라는 값은 mean absolute error라는 거예요. 07:35 : mean absolute error라는 것은 평균절대오차라고 합니다. 평균절대오차 같은 경우는 결괏값과 예측값이 얼마나 비슷한지를 평가하는 함수입니다. 07:48 : 그래서 이것도 0에 가까워질수록 모형이 우수하다. 라는 것을 의미를 하는 것을 확인하실 수 있을 겁니다. 07:58 : 그리고 보통 MAPE 이런 것들도 있지만, 기본적으로 RMSE, MAE라는 걸로 회귀모형 같이 이런 값들에 대해서 성과분석을 진행을 할 수 있구나. 08:11 : 0에 가까울수록 좋은 값이구나. 라는 것을 인지하실 수 있을 겁니다. 20:00 :	01:44 ~ 02:28		검수 상태 : 불통
lADsP 완전 정복l 성과 분석_3 QDRrQSFfXI4	00:05 : 정확도와 재현율이라는 게 있어요. 이것은 positive라는 기준으로 본 것이에요. 00:11 : 앞에서 본 것 positive 하나, negative 한 거에서 봤지만 이것은 positive를 기준을 봤을 거예요. 00:19 : 최근에 오분류표의 지표 중에서 많이 사용되는 지표가 텍스트 분석 등에서 많이 사용되는데 00:26 : 이게 바로 정확도라든지 재현율이라는 지표. 텍스트, 이미지 분석에서 많이 사용하는 게 00:35 : precision과 recall이라는 것이 있다. 라는 점 기억하시기 바랍니다. 00:41 : 각각의 지표에 대해 설명을 드리면 아까 말씀드린 것처럼 2개 다. positive에 관한 지표이고 00:49 : precision 같은 경우는 참으로 예측된 것 중에서 실제 참인 거예요. 참으로 예측된 거. 01:00 : 그렇기 때문에 TP+ FP분에 TP가 될 거고요. 재현율 같은 경우는 실제 참인 값 중에 참을 얼마나 찾았는지에 대한 비율이에요. 01:14 : 그래서 실제 참인 값 중에 얼마나 참이냐. recall 같은 경우는 앞에서 봤던 민감도랑 똑같아요. 01:21 : 민감도랑 똑같다는 점 기억을 하시면 TP+FM분에 TP. 이거는 민감도와 똑같다. 이런 거 반드시 기억하시고. 01:35 : 위에 이 precision이라든지 recall을 통해서 F1 score라는 것을 만들어서 주로 지표로 사용을 많이 하고 있습니다. 01:44 : 그래서 앞에서 말씀드린 민감도, 특이도, 그리고 정확도, 재현율을 가지고도 다양한 지표를 만들어 낼 수 있고요. 01:56 : 그리고 F1 score라는 걸 만들어서 가중 평균을 낸다든지, 조합 평균을 내서 따로 지표를 만들어서 사용을 한다. 라는 점 반드시 기억을 하시기 바랍니다. 02:09 : 그러면 이런 precision이나 recall 이외에, roc 커브 이외에도 따로 성능 평가를 할 수 있는 방법이 하나 있어요. 02:19 : 그것은 시험에 나올 수 있기 때문에 한번 간략히 말씀을 드리고 설명을 한번 드리고 넘어가 볼게요. 02:26 : 또 다른 성능 평가 방법 중에 하나가 이익도표량이 있습니다. 02:32 : lift chart라는 게 있어요. 이익도표는 분류 모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 02:46 : 임의로 나눈 각 등급별로 반응검출률이라든지, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표다. 라고 할 수 있습니다. 02:56 : 이것에 대해서 간략하게 한번 설명을 드리면 네이버 플레이스에서 물건을 판매한다고 한번 생각을 해봅시다. 03:07 : 스토어에 방문하는 고객이 2천 명이라고 해요. 2천 명이라고 할 때, 이 중에 381명은 기본적으로 물건을 사 간다고 해요. 03:16 : 그래서 아무런 액션을 안 취해도 사 가는 확률이 바로 baseline lift라고 표현을 합니다. 03:23 : 그래서 baseline lift가 2천 명 중에서 381명은 그냥 사 가는 거예요. 03:29 : 방문했을 때. 이런 거를 baseline lift라고 해서 19.05%로 나타나는 것을 확인을 할 수 있을 거예요. 03:38 : 그리고 이제 2천 명에 대해서 모형을 한번 만들어 볼 거예요. 03:43 : 물건을 살 것 같은 사람 그리고 물건을 안 살 것 같은 사람. 이런 사람들이 있겠죠. 03:52 : 이런 것들에 대해서 점수를 배점할 거예요. 03:55 : 당연히 물건을 살 것 같은 사람에게는 높은 점수를, 안 살 것 같은 사람에게는 낮은 점수를 주는 형태로 모형을 개발하고 04:04 : 점수를 부여해서 내림차순으로 데이터를 나열할 거예요. 04:08 : 그러면 점수가 높은 사람이 먼저 나타나고, 낮은 점수의 사람들이 뒤에 나타나는 형태로 데이터를 나열하고요. 04:16 : 그리고 각각의 동일한 빈도로 데이터를 10개의 구간으로 나눕니다. 그래서 첫 번째 구간을 보시면 총 174명이 나오고요. 04:26 : 두 번째는 110명, 이런 식으로 분포하는 것을 확인을 할 수 있을 거예요. 이런 프리퀀시를 기반으로 해서 구간별 response를 구했을 때 04:37 : 첫 번째 구간은 200명 중에서 174명이 샀기 때문에 87%가 나옵니다. 04:45 : 그리고 두 번째 같은 경우는 200명 중에서 110명이 샀기 때문에 55%가 나오고요. 04:52 : 이걸 통해서 1등급에 해당하는 사람이 물건을 살 확률이 87%나 되구나. 라는 것을 알 수 있을 겁니다. 05:01 : 그래서 이 response를 baseline lift로 나누어 봤어요. 이걸로 한번 나눠봤습니다. 05:07 : 나눠봤을 때 아무것도 안 해도 19%는 물건을 사 가는 사람들인데 05:13 : 그럼 baseline lift에 비해서 물건을 얼마나 더 사 가느냐를 알 수 있고, 이거를 바로 lift라고 표현을 할 수 있을 겁니다. 05:22 : 그렇기 때문에 1구간을 보시면 아무것도 안 했을 때에 비해서 약 4.57배는 물건을 사 간다는 것을 알 수가 있어요. 05:33 : 이런 식으로 만들어가는 것을 lift라고 하고, 이걸로 그래프를 만든 게 lift chart라고 할 수 있습니다. 05:41 : 리프트 차트가 이런 식으로 나타날 거예요. 05:44 : 리프트 차트는 높다가 쭉 떨어진 이런 모형이 좋은 모형이다. 라고 할 수 있습니다. 05:50 : 왜냐면 여기 위에 있는 이 세 가지 한 3, 4등급까지 사람들만 모아서 프로모션을 한다든지, 그런 식으로 진행을 할 수 있기 때문에 05:57 : 이렇게 앞에만 높다가 뒤가 쭉 떨어지는 모형이 좋은 모형이다. 해서 좋은 모형은 이런 식으로 나타날 수도 있고요. 06:05 : 아니면 이렇게 계단식까지도 괜찮아요. 근데 균일한 분포. 이렇게 나타나는 것은 좋은 모형이다. 라고 할 수가 없습니다. 06:13 : 성과분석에서 오분류표 이외에도 오분류표 같은 경우는 분류라고 해서 나타나는 결괏값들이 이렇게 하나하나 값들로 나타날 거예요. 06:25 : 이렇게 범주가 있게 분류가 될 거예요. 06:28 : 근데 이런 분류 값이 아니라 만약에 주가 예측값. 주가 아니면, 점수 이런 것들처럼 연속형 변숫값, 연속형 값들이 06:39 : 만약에 성과분석 지표로 활용될 수 있는 게 RMSE라는 것과 MSE라는 것이 있다. 라는 것을 기억해 주시기 바랍니다. 06:48 : 시험에 한 번씩 이런 개념이 나타날 때가 있어요. 06:51 : 그래서 RMSE 같은 경우는 root mean square error라고 해서 회귀모형의 성과측정에 주로 활용하고 있습니다. 07:01 : 그래서 추정값 또는 모델이 예측값과 실제 환경에서 관찰되는 값의 차이를 다룰 때 흔히 사용되는 측도다. 07:11 : 그래서 0에 가까워질수록 정밀도가 높아진다. 0에 가까울수록 좋다. 예측한 값과 원래 값이 동일하다. 해서 07:20 : 잘 예측하는 모형이다. 라고 할 수 있기 때문에 기존에 있던 MSE라는 값에 루트를 씌우는 값이다. 이렇게 기억을 하시면 되고요. 07:28 : 두 번째로는 MAE라는 값이 있습니다. MAE라는 값은 mean absolute error라는 거예요. 07:35 : mean absolute error라는 것은 평균절대오차라고 합니다. 평균절대오차 같은 경우는 결괏값과 예측값이 얼마나 비슷한지를 평가하는 함수입니다. 07:48 : 그래서 이것도 0에 가까워질수록 모형이 우수하다. 라는 것을 의미를 하는 것을 확인하실 수 있을 겁니다. 07:58 : 그리고 보통 MAPE 이런 것들도 있지만, 기본적으로 RMSE, MAE라는 걸로 회귀모형 같이 이런 값들에 대해서 성과분석을 진행을 할 수 있구나. 08:11 : 0에 가까울수록 좋은 값이구나. 라는 것을 인지하실 수 있을 겁니다. 20:00 :	00:05 ~ 00:35		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :

이전 다음