남은 문제 : 36
문제 1356
다음 중 로지스틱 회귀모형에서 설명 변수가 한 개인 경우 해당 회귀 계수의 부호가 0보다 작을 때 표현되는 그래프의 형태로 적절한 것은?
보기
1.S자 그래프
2.양의 선형 그래프
3.역 S자 그래프
4.음의 선형 그래프
정답
3
해시
태그
lADsP 완전 정복l 로지스틱 회귀분석_2
_U0xInzN0Ek
00:05
: 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면
00:15
: 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요.
00:24
: 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은
00:32
: 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만
00:46
: y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지.
00:54
: 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면
01:02
: 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수
01:13
: 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까.
01:27
: 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠.
01:39
: 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다.
01:49
: 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에
01:58
: -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다.
02:08
: 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다.
02:17
: 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠.
02:28
: 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+
02:40
: 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다.
02:56
: 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요.
03:10
: 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다.
03:17
: 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요.
03:24
: 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다.
03:35
: 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까.
03:49
: 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈.
04:02
: 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다.
04:11
: 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다.
04:28
: 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠.
04:40
: 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠.
04:54
: 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠.
05:01
: p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요.
05:11
: 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는
05:28
: 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다.
05:42
: 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요.
05:55
: 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다.
06:06
: 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요.
06:13
: 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다.
06:22
: 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요.
06:37
: 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다.
06:50
: 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요.
06:57
: 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지
07:10
: 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다.
07:29
: 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요.
07:46
: 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠.
07:57
: 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠.
08:05
: 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로
08:12
: 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다.
08:26
: p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다.
08:33
: 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요.
08:42
: 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게
08:51
: 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까.
08:59
: x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다.
09:06
: 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다.
09:22
: 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면
09:34
: x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다.
09:49
: 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠.
09:58
: 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요.
10:13
: 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠.
10:22
: 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요.
20:00
:
00:05
: 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면
00:15
: 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요.
00:24
: 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은
00:32
: 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만
00:46
: y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지.
00:54
: 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면
01:02
: 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수
01:13
: 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까.
01:27
: 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠.
01:39
: 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다.
01:49
: 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에
01:58
: -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다.
02:08
: 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다.
02:17
: 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠.
02:28
: 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+
02:40
: 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다.
02:56
: 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요.
03:10
: 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다.
03:17
: 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요.
03:24
: 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다.
03:35
: 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까.
03:49
: 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈.
04:02
: 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다.
04:11
: 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다.
04:28
: 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠.
04:40
: 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠.
04:54
: 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠.
05:01
: p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요.
05:11
: 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는
05:28
: 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다.
05:42
: 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요.
05:55
: 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다.
06:06
: 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요.
06:13
: 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다.
06:22
: 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요.
06:37
: 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다.
06:50
: 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요.
06:57
: 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지
07:10
: 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다.
07:29
: 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요.
07:46
: 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠.
07:57
: 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠.
08:05
: 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로
08:12
: 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다.
08:26
: p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다.
08:33
: 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요.
08:42
: 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게
08:51
: 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까.
08:59
: x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다.
09:06
: 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다.
09:22
: 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면
09:34
: x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다.
09:49
: 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠.
09:58
: 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요.
10:13
: 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠.
10:22
: 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요.
20:00
:
01:13
~
02:22
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 로지스틱 회귀분석_2
_U0xInzN0Ek
00:05
: 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면
00:15
: 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요.
00:24
: 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은
00:32
: 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만
00:46
: y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지.
00:54
: 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면
01:02
: 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수
01:13
: 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까.
01:27
: 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠.
01:39
: 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다.
01:49
: 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에
01:58
: -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다.
02:08
: 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다.
02:17
: 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠.
02:28
: 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+
02:40
: 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다.
02:56
: 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요.
03:10
: 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다.
03:17
: 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요.
03:24
: 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다.
03:35
: 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까.
03:49
: 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈.
04:02
: 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다.
04:11
: 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다.
04:28
: 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠.
04:40
: 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠.
04:54
: 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠.
05:01
: p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요.
05:11
: 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는
05:28
: 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다.
05:42
: 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요.
05:55
: 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다.
06:06
: 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요.
06:13
: 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다.
06:22
: 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요.
06:37
: 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다.
06:50
: 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요.
06:57
: 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지
07:10
: 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다.
07:29
: 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요.
07:46
: 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠.
07:57
: 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠.
08:05
: 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로
08:12
: 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다.
08:26
: p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다.
08:33
: 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요.
08:42
: 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게
08:51
: 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까.
08:59
: x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다.
09:06
: 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다.
09:22
: 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면
09:34
: x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다.
09:49
: 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠.
09:58
: 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요.
10:13
: 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠.
10:22
: 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요.
20:00
:
00:05
: 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면
00:15
: 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요.
00:24
: 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은
00:32
: 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만
00:46
: y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지.
00:54
: 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면
01:02
: 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수
01:13
: 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까.
01:27
: 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠.
01:39
: 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다.
01:49
: 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에
01:58
: -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다.
02:08
: 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다.
02:17
: 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠.
02:28
: 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+
02:40
: 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다.
02:56
: 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요.
03:10
: 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다.
03:17
: 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요.
03:24
: 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다.
03:35
: 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까.
03:49
: 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈.
04:02
: 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다.
04:11
: 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다.
04:28
: 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠.
04:40
: 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠.
04:54
: 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠.
05:01
: p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요.
05:11
: 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는
05:28
: 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다.
05:42
: 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요.
05:55
: 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다.
06:06
: 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요.
06:13
: 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다.
06:22
: 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요.
06:37
: 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다.
06:50
: 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요.
06:57
: 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지
07:10
: 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다.
07:29
: 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요.
07:46
: 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠.
07:57
: 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠.
08:05
: 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로
08:12
: 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다.
08:26
: p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다.
08:33
: 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요.
08:42
: 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게
08:51
: 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까.
08:59
: x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다.
09:06
: 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다.
09:22
: 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면
09:34
: x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다.
09:49
: 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠.
09:58
: 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요.
10:13
: 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠.
10:22
: 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요.
20:00
:
01:13
~
02:22
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 로지스틱 회귀분석_1
tu5eJlt4StY
00:05
: 지금까지 회귀분석을 단순선형을 하든 다중선형을 하든 회귀분석을 하면서 독립변수의 수를 가지고
00:19
: 단순이다, 또는 다중이다. 이렇게 회귀분석의 종류를 얘기를 했지 않습니까.
00:25
: 그런데 종속변수는 항상 하나를 얘기를 했었거든요. 근데 그 종속변수에 데이터 타입. 종속변수의 데이터 형식이죠.
00:36
: 종속변수가 지금까지 했던 모든 회귀분석들은요. 다 연속형인 경우에 적용하는 회귀분석 모형이었습니다.
00:46
: 종속변수가 판매량이 됐든, 아니면 매출액이 됐든, 아니면 GDP 수준이 됐든 그게 다 수치화되어 있는.
01:01
: 그리고 실수형의 수치화되어 있는 그런 연속형인 경우에 적용하는 회귀분석모형을 했었습니다.
01:07
: 그런데 종속변수가 이렇게 연속형이 아닌 경우가 있습니다.
01:13
: 특히 어떤 경우냐면 실패 아니면 성공, 정품 아니면 분량, 합격 아니면 불합격과 같이 이진의 참 아니면 거짓으로 나타나는
01:25
: 이진이라고 얘기를 하거든요. 이진의 범주형인 그런 종속변수가 있습니다. 그러면 그런 종속변수가 있는 그런 상황에서는
01:37
: 회귀분석을 일반적인 분석을 할 수 없다는 얘기예요. 그럴 때는 특별한 회귀분석이 필요하고요.
01:46
: 그 회귀분석을 뭐라 부르냐면 로지스틱 회귀분석이라고 얘기를 하는 겁니다.
01:51
: 그래서 로지스틱 회귀분석 같은 경우에는 분류하려는 범주가, 카테고리가 성공 아니면 실패 아니면
02:01
: 남녀와 같이 이진이라고 하는 두 가지 범주로 나눠진 경우에
02:06
: 그래서 분석을 했을 때, 그 분석 결과 이거는 성공에 해당하는지
02:13
: 이거는 실패에 해당하는지를 분류해 주는 그런 결과를 만들어내는 회귀분석을 하려고 할 때
02:22
: 그런 결과를 만들어 내려고 할 때 로지스틱 회귀분석을 하시면 되는 겁니다.
02:29
: 그런데 y라고 하는 변수 자체가 종속변수잖습니까. 이게 종속변수고, 이게 설명하는 독립변수가 되는데 이거는
02:41
: 신경 쓸 필요 없죠. 지금 이걸 얘기를 하려고 하는 게 아니라 바로 이거 얘기하는 거니까.
02:47
: 그래서 y변수가 바로 갖는 값이 0 아니면 1의 값을 갖는다고 해요. 이게 이진이기 때문에.
02:56
: 이렇게 되는 경우에 뭐 하고 비교를 했을 때 문제점이 생기느냐면 이것이 연속형이었을 때 하고 비교를 해보면
03:07
: 어떤 문제가 있다는 것을 아실 수 있습니다.
03:09
: 이런 경우에는 일단은 y가 가질 수 있는 0 아니면 1값만 가지기 때문에 어쩔 수 없이 결정계수 값이 여기서
03:18
: 이거에 대한이 독립변수가 y변수에 대해서 설명하고 있는 그 설명 정도가 굉장히 낮아질 수밖에 없습니다.
03:29
: 이것이 문제가 있어서가 아니라 이것 자체에 데이터 형태 때문에 그렇다는 얘기죠.
03:34
: 그리고 f-test를 하거나 t-test를 해서 유의성이 앞에 있는 a. 앞쪽에서 얘기했던 이게 베타 1이거든요. 이런 거에 대한
03:45
: 회귀계수에 대해서 유의성 검정을 일반적으로 하는 것도 굉장히 어렵습니다. 그래서 전반적으로 종속변수가
03:53
: 이진의 0, 1만 갖는 이런 범주형의 변수가 됐을 때는 문제가 좀 상당히 크기 때문에 어떤 노력을, 어떤 시도를 해야 되냐면
04:07
: 이진의 0,1로 되어 있는 이 이진의 범주형 변수를 어떤 변수로 바꾸면 되겠다.
04:14
: 연속형 변수로. 지금까지 해왔던 아무 문제 없이 결정계수도 충분히 나와지고 회귀계수를 구하는 것도.
04:25
: 가설검정 하는 것도 문제가 없고, 나머지 부분에서도 문제가 없는 그런 연속형의 변수로 바꿔주면 되지 않겠느냐는 겁니다.
04:33
: 그래서 이진의 범주형 변수를 어떤 변수로 바꾼다.
04:39
: 연속형으로 바꾸는 과정이 필요하겠죠. 그렇게 되면 바꾸게 되면 당연히 x변수는, 독립변수는 연속형입니다. 그런데 바꾸게
04:55
: 되면 뭐까지 바뀐다. 이진의 범주형 변수도 뭐로 바뀌는 거예요. 이렇게 연속형으로 이 변수로 바꾸겠다는 얘기입니다.
20:00
:
00:05
~
01:13
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음