해시 태그
lADsP 완전 정복l 로지스틱 회귀분석_3 / 예상문제 풀이 xfmHiUiwHpw
00:06 : 로지스틱 회귀분석을 하시게 되면 회귀분석의 결과로 나오는 분류 확률이 앞에서 시그모이드 함수 그래프 보셨잖아요.
00:17 : 그 함수 그래프에 보시면 확률 질량 함수. 즉 세로축 0에서부터 1% 사이에 어떤 확률로 분류할 수 있는 확률들이 나왔습니다.
00:28 : 그 확률이 특정 수준보다 큰지, 작은지를 기준으로 해서 해당 데이터가 어떤 쪽에 속하는지를
00:36 : 나눠 볼 수 있다. 라고 말씀을 드렸었죠. 그때 그 기준이 되는 값이요. 잠시 앞에 거 다시 한번 보겠습니다.
00:46 : 성공이다. 실패다. 라고 했죠. 나누는 기준을 아까는 0.5를 가지고 얘기를 했지만, 0.3이 될 수도 있고 아니면 0.8이 될 수도 있고
00:57 : 이거는 사안에 따라 다르거든요. 동전 던지기 실험에서는 당연히 0.5가 되겠지만, 나머지는 좀 다를 수 있다고요.
01:04 : 그랬을 때 이 기준이 되는 값. 0.5로 잡을 건지, 0.8로 잡을 건지, 0.25로 잡을 건지 이걸 임곗값이라고 얘기를 하고요.
01:13 : 그래서 보통 분류를 위한 임곗값은 가장 많이 쓰는 게 0.5를 가장 많이 쓰기는 합니다.
01:20 : 그래서 성공 확률이겠죠. 이 0.5보다 큰 쪽으로 x를 -5를 넣었을 때 이만큼에 해당하는 게 이렇게 나왔지 않습니까.
01:31 : 그래서 이 임곗값. 성공적으로 분류할 수 있는 이 임곗값보다 더 높은 쪽으로 성공 확률이 나오게 되면
01:40 : 가차 없이 성공이다. 라고 판단하시면 되는 거고요. 그리고 이 분류 기준이 임계값보다 작은 쪽 그런 경우에는
01:49 : 이런 거 넣었을 때는 작네요. x 변수가 이 정도까지. -5보다 작은 쪽으로 넣었을 때는 임곗값보다 작은 쪽으로
02:01 : 이렇게 포지션이 될 겁니다. 이런 경우에는 실패라고 분류를 하는 겁니다.
02:06 : 근데 반드시 0.5라고 하는 것을 분류해야겠죠. 어떤 기준인 임곗값으로 잡을 필요는 없고요.
02:14 : 조금 소극적인 판단하려고 하는 경우. 임상 실험 같은 거 있잖아요. 약물의 어떤 실험 결과, 효과 이런 거 보려고 할 때
02:25 : 50%만 넘으면 약물의 효과가 있다. 이렇게 판단한다고 하면은 이건 굉장히 일반화시켰을 때
02:32 : 그게 제품이 시장에 나왔을 때 어떠한 부작용이 나타날지 안전성의 문제가 생길 수 있습니다.
02:40 : 그런 경우에는 될 수 있으면 성공이라고 나타낼 수 있는 거를 굉장히 보수적으로 선택할 필요가 있겠죠.
02:48 : 그럴 때는 이 임계치의 기준이 어떻게 될까요. 이만큼 낮아 버리는 겁니다. 한 0.2 정도로 낮춰 버리는 거죠.
02:56 : 그러면 진짜 실수가 없어야지만 성공을 선택할 수 있도록 그래서 임계치를 좀 더 낮춰서 민감도를 높이게 되면.
03:08 : 나중에 혹시라도 어떤 안전에 문제. 그런 게 생길 때도 크게 문제시되지 않기 때문에 그런 측면에서도 임계치는 반드시 0.5를 쓰는 것이 아니라
03:22 : 일반적으로 0.5를 쓴다는 거고 그 케이스에 따라서는 임계치 값이 달라질 수 있다. 라고 보시면 되겠습니다.
20:00 :
00:06 ~ 01:49
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 로지스틱 회귀분석_2 _U0xInzN0Ek
00:05 : 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면
00:15 : 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요.
00:24 : 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은
00:32 : 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만
00:46 : y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지.
00:54 : 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면
01:02 : 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수
01:13 : 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까.
01:27 : 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠.
01:39 : 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다.
01:49 : 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에
01:58 : -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다.
02:08 : 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다.
02:17 : 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠.
02:28 : 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+
02:40 : 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다.
02:56 : 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요.
03:10 : 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다.
03:17 : 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요.
03:24 : 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다.
03:35 : 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까.
03:49 : 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈.
04:02 : 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다.
04:11 : 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다.
04:28 : 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠.
04:40 : 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠.
04:54 : 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠.
05:01 : p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요.
05:11 : 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는
05:28 : 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다.
05:42 : 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요.
05:55 : 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다.
06:06 : 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요.
06:13 : 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다.
06:22 : 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요.
06:37 : 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다.
06:50 : 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요.
06:57 : 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지
07:10 : 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다.
07:29 : 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요.
07:46 : 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠.
07:57 : 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠.
08:05 : 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로
08:12 : 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다.
08:26 : p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다.
08:33 : 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요.
08:42 : 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게
08:51 : 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까.
08:59 : x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다.
09:06 : 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다.
09:22 : 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면
09:34 : x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다.
09:49 : 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠.
09:58 : 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요.
10:13 : 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠.
10:22 : 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요.
20:00 :
00:05 ~ 01:46
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 로지스틱 회귀분석_1 tu5eJlt4StY
00:05 : 지금까지 회귀분석을 단순선형을 하든 다중선형을 하든 회귀분석을 하면서 독립변수의 수를 가지고
00:19 : 단순이다, 또는 다중이다. 이렇게 회귀분석의 종류를 얘기를 했지 않습니까.
00:25 : 그런데 종속변수는 항상 하나를 얘기를 했었거든요. 근데 그 종속변수에 데이터 타입. 종속변수의 데이터 형식이죠.
00:36 : 종속변수가 지금까지 했던 모든 회귀분석들은요. 다 연속형인 경우에 적용하는 회귀분석 모형이었습니다.
00:46 : 종속변수가 판매량이 됐든, 아니면 매출액이 됐든, 아니면 GDP 수준이 됐든 그게 다 수치화되어 있는.
01:01 : 그리고 실수형의 수치화되어 있는 그런 연속형인 경우에 적용하는 회귀분석모형을 했었습니다.
01:07 : 그런데 종속변수가 이렇게 연속형이 아닌 경우가 있습니다.
01:13 : 특히 어떤 경우냐면 실패 아니면 성공, 정품 아니면 분량, 합격 아니면 불합격과 같이 이진의 참 아니면 거짓으로 나타나는
01:25 : 이진이라고 얘기를 하거든요. 이진의 범주형인 그런 종속변수가 있습니다. 그러면 그런 종속변수가 있는 그런 상황에서는
01:37 : 회귀분석을 일반적인 분석을 할 수 없다는 얘기예요. 그럴 때는 특별한 회귀분석이 필요하고요.
01:46 : 그 회귀분석을 뭐라 부르냐면 로지스틱 회귀분석이라고 얘기를 하는 겁니다.
01:51 : 그래서 로지스틱 회귀분석 같은 경우에는 분류하려는 범주가, 카테고리가 성공 아니면 실패 아니면
02:01 : 남녀와 같이 이진이라고 하는 두 가지 범주로 나눠진 경우에
02:06 : 그래서 분석을 했을 때, 그 분석 결과 이거는 성공에 해당하는지
02:13 : 이거는 실패에 해당하는지를 분류해 주는 그런 결과를 만들어내는 회귀분석을 하려고 할 때
02:22 : 그런 결과를 만들어 내려고 할 때 로지스틱 회귀분석을 하시면 되는 겁니다.
02:29 : 그런데 y라고 하는 변수 자체가 종속변수잖습니까. 이게 종속변수고, 이게 설명하는 독립변수가 되는데 이거는
02:41 : 신경 쓸 필요 없죠. 지금 이걸 얘기를 하려고 하는 게 아니라 바로 이거 얘기하는 거니까.
02:47 : 그래서 y변수가 바로 갖는 값이 0 아니면 1의 값을 갖는다고 해요. 이게 이진이기 때문에.
02:56 : 이렇게 되는 경우에 뭐 하고 비교를 했을 때 문제점이 생기느냐면 이것이 연속형이었을 때 하고 비교를 해보면
03:07 : 어떤 문제가 있다는 것을 아실 수 있습니다.
03:09 : 이런 경우에는 일단은 y가 가질 수 있는 0 아니면 1값만 가지기 때문에 어쩔 수 없이 결정계수 값이 여기서
03:18 : 이거에 대한이 독립변수가 y변수에 대해서 설명하고 있는 그 설명 정도가 굉장히 낮아질 수밖에 없습니다.
03:29 : 이것이 문제가 있어서가 아니라 이것 자체에 데이터 형태 때문에 그렇다는 얘기죠.
03:34 : 그리고 f-test를 하거나 t-test를 해서 유의성이 앞에 있는 a. 앞쪽에서 얘기했던 이게 베타 1이거든요. 이런 거에 대한
03:45 : 회귀계수에 대해서 유의성 검정을 일반적으로 하는 것도 굉장히 어렵습니다. 그래서 전반적으로 종속변수가
03:53 : 이진의 0, 1만 갖는 이런 범주형의 변수가 됐을 때는 문제가 좀 상당히 크기 때문에 어떤 노력을, 어떤 시도를 해야 되냐면
04:07 : 이진의 0,1로 되어 있는 이 이진의 범주형 변수를 어떤 변수로 바꾸면 되겠다.
04:14 : 연속형 변수로. 지금까지 해왔던 아무 문제 없이 결정계수도 충분히 나와지고 회귀계수를 구하는 것도.
04:25 : 가설검정 하는 것도 문제가 없고, 나머지 부분에서도 문제가 없는 그런 연속형의 변수로 바꿔주면 되지 않겠느냐는 겁니다.
04:33 : 그래서 이진의 범주형 변수를 어떤 변수로 바꾼다.
04:39 : 연속형으로 바꾸는 과정이 필요하겠죠. 그렇게 되면 바꾸게 되면 당연히 x변수는, 독립변수는 연속형입니다. 그런데 바꾸게
04:55 : 되면 뭐까지 바뀐다. 이진의 범주형 변수도 뭐로 바뀌는 거예요. 이렇게 연속형으로 이 변수로 바꾸겠다는 얘기입니다.
20:00 :
00:05 ~ 01:46
1
2
3
검수 상태 : 불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 : 추가