남은 문제 : 36

문제 1285

Default 데이터셋은 10,000명의 신용카드 고객에 대한 연체여부(default:1-default,0-not default), 카드대금 납입 후 남은 평균 카드잔고(balance), 연봉(income)을 포함하고 있다. 아래는 연체 가능성을 95% 신뢰수준으로 모형화한 결과이다. 다음 설명이 부적절한 것은 무엇인가?

보기

1.로지스틱 회귀모형의 적합 결과이다.
2.balance는 default를 설명하는데 통계적으로 유의하다.
3.balance가 높을수록 default 가능성이 높다.
4.income이 높을수록 default 가능성이 낮다.

정답

해시
태그

lADsP 완전 정복l 로지스틱 회귀분석_3 / 예상문제 풀이 xfmHiUiwHpw	00:06 : 로지스틱 회귀분석을 하시게 되면 회귀분석의 결과로 나오는 분류 확률이 앞에서 시그모이드 함수 그래프 보셨잖아요. 00:17 : 그 함수 그래프에 보시면 확률 질량 함수. 즉 세로축 0에서부터 1% 사이에 어떤 확률로 분류할 수 있는 확률들이 나왔습니다. 00:28 : 그 확률이 특정 수준보다 큰지, 작은지를 기준으로 해서 해당 데이터가 어떤 쪽에 속하는지를 00:36 : 나눠 볼 수 있다. 라고 말씀을 드렸었죠. 그때 그 기준이 되는 값이요. 잠시 앞에 거 다시 한번 보겠습니다. 00:46 : 성공이다. 실패다. 라고 했죠. 나누는 기준을 아까는 0.5를 가지고 얘기를 했지만, 0.3이 될 수도 있고 아니면 0.8이 될 수도 있고 00:57 : 이거는 사안에 따라 다르거든요. 동전 던지기 실험에서는 당연히 0.5가 되겠지만, 나머지는 좀 다를 수 있다고요. 01:04 : 그랬을 때 이 기준이 되는 값. 0.5로 잡을 건지, 0.8로 잡을 건지, 0.25로 잡을 건지 이걸 임곗값이라고 얘기를 하고요. 01:13 : 그래서 보통 분류를 위한 임곗값은 가장 많이 쓰는 게 0.5를 가장 많이 쓰기는 합니다. 01:20 : 그래서 성공 확률이겠죠. 이 0.5보다 큰 쪽으로 x를 -5를 넣었을 때 이만큼에 해당하는 게 이렇게 나왔지 않습니까. 01:31 : 그래서 이 임곗값. 성공적으로 분류할 수 있는 이 임곗값보다 더 높은 쪽으로 성공 확률이 나오게 되면 01:40 : 가차 없이 성공이다. 라고 판단하시면 되는 거고요. 그리고 이 분류 기준이 임계값보다 작은 쪽 그런 경우에는 01:49 : 이런 거 넣었을 때는 작네요. x 변수가 이 정도까지. -5보다 작은 쪽으로 넣었을 때는 임곗값보다 작은 쪽으로 02:01 : 이렇게 포지션이 될 겁니다. 이런 경우에는 실패라고 분류를 하는 겁니다. 02:06 : 근데 반드시 0.5라고 하는 것을 분류해야겠죠. 어떤 기준인 임곗값으로 잡을 필요는 없고요. 02:14 : 조금 소극적인 판단하려고 하는 경우. 임상 실험 같은 거 있잖아요. 약물의 어떤 실험 결과, 효과 이런 거 보려고 할 때 02:25 : 50%만 넘으면 약물의 효과가 있다. 이렇게 판단한다고 하면은 이건 굉장히 일반화시켰을 때 02:32 : 그게 제품이 시장에 나왔을 때 어떠한 부작용이 나타날지 안전성의 문제가 생길 수 있습니다. 02:40 : 그런 경우에는 될 수 있으면 성공이라고 나타낼 수 있는 거를 굉장히 보수적으로 선택할 필요가 있겠죠. 02:48 : 그럴 때는 이 임계치의 기준이 어떻게 될까요. 이만큼 낮아 버리는 겁니다. 한 0.2 정도로 낮춰 버리는 거죠. 02:56 : 그러면 진짜 실수가 없어야지만 성공을 선택할 수 있도록 그래서 임계치를 좀 더 낮춰서 민감도를 높이게 되면. 03:08 : 나중에 혹시라도 어떤 안전에 문제. 그런 게 생길 때도 크게 문제시되지 않기 때문에 그런 측면에서도 임계치는 반드시 0.5를 쓰는 것이 아니라 03:22 : 일반적으로 0.5를 쓴다는 거고 그 케이스에 따라서는 임계치 값이 달라질 수 있다. 라고 보시면 되겠습니다. 20:00 :	00:06 ~ 01:49		검수 상태 : 불통
lADsP 완전 정복l 로지스틱 회귀분석_2 _U0xInzN0Ek	00:05 : 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면 00:15 : 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요. 00:24 : 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은 00:32 : 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만 00:46 : y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지. 00:54 : 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면 01:02 : 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수 01:13 : 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까. 01:27 : 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠. 01:39 : 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다. 01:49 : 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에 01:58 : -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다. 02:08 : 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다. 02:17 : 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠. 02:28 : 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+ 02:40 : 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다. 02:56 : 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요. 03:10 : 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다. 03:17 : 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요. 03:24 : 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다. 03:35 : 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까. 03:49 : 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈. 04:02 : 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다. 04:11 : 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다. 04:28 : 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠. 04:40 : 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠. 04:54 : 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠. 05:01 : p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요. 05:11 : 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는 05:28 : 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다. 05:42 : 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요. 05:55 : 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다. 06:06 : 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요. 06:13 : 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다. 06:22 : 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요. 06:37 : 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다. 06:50 : 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요. 06:57 : 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지 07:10 : 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다. 07:29 : 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요. 07:46 : 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠. 07:57 : 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠. 08:05 : 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로 08:12 : 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다. 08:26 : p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다. 08:33 : 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요. 08:42 : 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게 08:51 : 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까. 08:59 : x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다. 09:06 : 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다. 09:22 : 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면 09:34 : x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다. 09:49 : 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠. 09:58 : 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요. 10:13 : 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠. 10:22 : 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요. 20:00 :	00:05 ~ 01:46		검수 상태 : 불통
lADsP 완전 정복l 로지스틱 회귀분석_1 tu5eJlt4StY	00:05 : 지금까지 회귀분석을 단순선형을 하든 다중선형을 하든 회귀분석을 하면서 독립변수의 수를 가지고 00:19 : 단순이다, 또는 다중이다. 이렇게 회귀분석의 종류를 얘기를 했지 않습니까. 00:25 : 그런데 종속변수는 항상 하나를 얘기를 했었거든요. 근데 그 종속변수에 데이터 타입. 종속변수의 데이터 형식이죠. 00:36 : 종속변수가 지금까지 했던 모든 회귀분석들은요. 다 연속형인 경우에 적용하는 회귀분석 모형이었습니다. 00:46 : 종속변수가 판매량이 됐든, 아니면 매출액이 됐든, 아니면 GDP 수준이 됐든 그게 다 수치화되어 있는. 01:01 : 그리고 실수형의 수치화되어 있는 그런 연속형인 경우에 적용하는 회귀분석모형을 했었습니다. 01:07 : 그런데 종속변수가 이렇게 연속형이 아닌 경우가 있습니다. 01:13 : 특히 어떤 경우냐면 실패 아니면 성공, 정품 아니면 분량, 합격 아니면 불합격과 같이 이진의 참 아니면 거짓으로 나타나는 01:25 : 이진이라고 얘기를 하거든요. 이진의 범주형인 그런 종속변수가 있습니다. 그러면 그런 종속변수가 있는 그런 상황에서는 01:37 : 회귀분석을 일반적인 분석을 할 수 없다는 얘기예요. 그럴 때는 특별한 회귀분석이 필요하고요. 01:46 : 그 회귀분석을 뭐라 부르냐면 로지스틱 회귀분석이라고 얘기를 하는 겁니다. 01:51 : 그래서 로지스틱 회귀분석 같은 경우에는 분류하려는 범주가, 카테고리가 성공 아니면 실패 아니면 02:01 : 남녀와 같이 이진이라고 하는 두 가지 범주로 나눠진 경우에 02:06 : 그래서 분석을 했을 때, 그 분석 결과 이거는 성공에 해당하는지 02:13 : 이거는 실패에 해당하는지를 분류해 주는 그런 결과를 만들어내는 회귀분석을 하려고 할 때 02:22 : 그런 결과를 만들어 내려고 할 때 로지스틱 회귀분석을 하시면 되는 겁니다. 02:29 : 그런데 y라고 하는 변수 자체가 종속변수잖습니까. 이게 종속변수고, 이게 설명하는 독립변수가 되는데 이거는 02:41 : 신경 쓸 필요 없죠. 지금 이걸 얘기를 하려고 하는 게 아니라 바로 이거 얘기하는 거니까. 02:47 : 그래서 y변수가 바로 갖는 값이 0 아니면 1의 값을 갖는다고 해요. 이게 이진이기 때문에. 02:56 : 이렇게 되는 경우에 뭐 하고 비교를 했을 때 문제점이 생기느냐면 이것이 연속형이었을 때 하고 비교를 해보면 03:07 : 어떤 문제가 있다는 것을 아실 수 있습니다. 03:09 : 이런 경우에는 일단은 y가 가질 수 있는 0 아니면 1값만 가지기 때문에 어쩔 수 없이 결정계수 값이 여기서 03:18 : 이거에 대한이 독립변수가 y변수에 대해서 설명하고 있는 그 설명 정도가 굉장히 낮아질 수밖에 없습니다. 03:29 : 이것이 문제가 있어서가 아니라 이것 자체에 데이터 형태 때문에 그렇다는 얘기죠. 03:34 : 그리고 f-test를 하거나 t-test를 해서 유의성이 앞에 있는 a. 앞쪽에서 얘기했던 이게 베타 1이거든요. 이런 거에 대한 03:45 : 회귀계수에 대해서 유의성 검정을 일반적으로 하는 것도 굉장히 어렵습니다. 그래서 전반적으로 종속변수가 03:53 : 이진의 0, 1만 갖는 이런 범주형의 변수가 됐을 때는 문제가 좀 상당히 크기 때문에 어떤 노력을, 어떤 시도를 해야 되냐면 04:07 : 이진의 0,1로 되어 있는 이 이진의 범주형 변수를 어떤 변수로 바꾸면 되겠다. 04:14 : 연속형 변수로. 지금까지 해왔던 아무 문제 없이 결정계수도 충분히 나와지고 회귀계수를 구하는 것도. 04:25 : 가설검정 하는 것도 문제가 없고, 나머지 부분에서도 문제가 없는 그런 연속형의 변수로 바꿔주면 되지 않겠느냐는 겁니다. 04:33 : 그래서 이진의 범주형 변수를 어떤 변수로 바꾼다. 04:39 : 연속형으로 바꾸는 과정이 필요하겠죠. 그렇게 되면 바꾸게 되면 당연히 x변수는, 독립변수는 연속형입니다. 그런데 바꾸게 04:55 : 되면 뭐까지 바뀐다. 이진의 범주형 변수도 뭐로 바뀌는 거예요. 이렇게 연속형으로 이 변수로 바꾸겠다는 얘기입니다. 20:00 :	00:05 ~ 01:46		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :

이전 다음