남은 문제 : 36

문제 1356

다음 중 로지스틱 회귀모형에서 설명 변수가 한 개인 경우 해당 회귀 계수의 부호가 0보다 작을 때 표현되는 그래프의 형태로 적절한 것은?

보기

1.S자 그래프
2.양의 선형 그래프
3.역 S자 그래프
4.음의 선형 그래프

정답

3

해시
태그

lADsP 완전 정복l 로지스틱 회귀분석_2 _U0xInzN0Ek	00:05 : 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면 00:15 : 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요. 00:24 : 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은 00:32 : 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만 00:46 : y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지. 00:54 : 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면 01:02 : 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수 01:13 : 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까. 01:27 : 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠. 01:39 : 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다. 01:49 : 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에 01:58 : -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다. 02:08 : 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다. 02:17 : 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠. 02:28 : 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+ 02:40 : 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다. 02:56 : 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요. 03:10 : 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다. 03:17 : 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요. 03:24 : 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다. 03:35 : 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까. 03:49 : 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈. 04:02 : 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다. 04:11 : 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다. 04:28 : 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠. 04:40 : 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠. 04:54 : 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠. 05:01 : p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요. 05:11 : 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는 05:28 : 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다. 05:42 : 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요. 05:55 : 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다. 06:06 : 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요. 06:13 : 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다. 06:22 : 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요. 06:37 : 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다. 06:50 : 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요. 06:57 : 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지 07:10 : 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다. 07:29 : 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요. 07:46 : 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠. 07:57 : 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠. 08:05 : 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로 08:12 : 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다. 08:26 : p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다. 08:33 : 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요. 08:42 : 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게 08:51 : 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까. 08:59 : x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다. 09:06 : 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다. 09:22 : 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면 09:34 : x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다. 09:49 : 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠. 09:58 : 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요. 10:13 : 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠. 10:22 : 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요. 20:00 : 00:05 : 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면 00:15 : 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요. 00:24 : 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은 00:32 : 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만 00:46 : y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지. 00:54 : 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면 01:02 : 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수 01:13 : 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까. 01:27 : 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠. 01:39 : 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다. 01:49 : 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에 01:58 : -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다. 02:08 : 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다. 02:17 : 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠. 02:28 : 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+ 02:40 : 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다. 02:56 : 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요. 03:10 : 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다. 03:17 : 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요. 03:24 : 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다. 03:35 : 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까. 03:49 : 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈. 04:02 : 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다. 04:11 : 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다. 04:28 : 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠. 04:40 : 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠. 04:54 : 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠. 05:01 : p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요. 05:11 : 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는 05:28 : 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다. 05:42 : 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요. 05:55 : 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다. 06:06 : 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요. 06:13 : 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다. 06:22 : 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요. 06:37 : 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다. 06:50 : 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요. 06:57 : 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지 07:10 : 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다. 07:29 : 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요. 07:46 : 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠. 07:57 : 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠. 08:05 : 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로 08:12 : 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다. 08:26 : p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다. 08:33 : 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요. 08:42 : 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게 08:51 : 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까. 08:59 : x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다. 09:06 : 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다. 09:22 : 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면 09:34 : x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다. 09:49 : 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠. 09:58 : 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요. 10:13 : 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠. 10:22 : 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요. 20:00 :	01:13 ~ 02:22		검수 상태 : 불통
lADsP 완전 정복l 로지스틱 회귀분석_2 _U0xInzN0Ek	00:05 : 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면 00:15 : 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요. 00:24 : 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은 00:32 : 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만 00:46 : y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지. 00:54 : 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면 01:02 : 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수 01:13 : 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까. 01:27 : 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠. 01:39 : 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다. 01:49 : 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에 01:58 : -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다. 02:08 : 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다. 02:17 : 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠. 02:28 : 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+ 02:40 : 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다. 02:56 : 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요. 03:10 : 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다. 03:17 : 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요. 03:24 : 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다. 03:35 : 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까. 03:49 : 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈. 04:02 : 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다. 04:11 : 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다. 04:28 : 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠. 04:40 : 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠. 04:54 : 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠. 05:01 : p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요. 05:11 : 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는 05:28 : 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다. 05:42 : 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요. 05:55 : 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다. 06:06 : 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요. 06:13 : 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다. 06:22 : 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요. 06:37 : 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다. 06:50 : 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요. 06:57 : 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지 07:10 : 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다. 07:29 : 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요. 07:46 : 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠. 07:57 : 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠. 08:05 : 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로 08:12 : 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다. 08:26 : p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다. 08:33 : 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요. 08:42 : 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게 08:51 : 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까. 08:59 : x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다. 09:06 : 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다. 09:22 : 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면 09:34 : x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다. 09:49 : 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠. 09:58 : 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요. 10:13 : 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠. 10:22 : 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요. 20:00 : 00:05 : 바로 앞에서 얘기했던 것처럼 일반적으로 이렇게 회귀모형 하나를 만들고 나면 00:15 : 이 독립변수에 값들은 다 -무한대에서 +무한대까지의 범위를 갖는 이게 연속형이란 뜻이거든요. 00:24 : 연속형을 나타내고 있습니다. 그런데 이 로지스틱 회귀분석에 쓰이는 종속변수들은 00:32 : 말씀드린 대로 0과 1. x값의 확률은 당연히 0에서 1까지의 값을 갖지만, y 값 자체는 확률은 이렇지만 00:46 : y 값 자체는 0 아니면 1입니다. 성공 아니면 실패. 성공을 1로 하였고 실패를 0으로 한다든지. 00:54 : 그러면 이게 동전을 던지는 경우에 동전도 이진이잖아요. 앞면 아니면 뒷면 나오죠. 그랬을 때 이게 동전 던지기라고 생각하시면 01:02 : 동전 던지기가 가질 수 있는 y의 값은 0 아니면 1값만 가져요. 그런데 동전 던지기기 때문에 y에 해당하는 함수. 질량 함수 01:13 : 즉 이 x, y가 얼마가 되는 0이란 값이 나오게 될 확률은요. 동전 던졌을 때 이게 뒷면이라고 한다면 뒷면이 나올 확률을 1/2. 0.5이지 않습니까. 01:27 : 그리고 이것이 y가 얼마의 값을 가질 y는 1의 값을 가질 확률은 앞면 나왔다는 뜻이니까 그것도 0.5가 되겠죠. 01:39 : 그래서 y의 값은 0 아니면 1이고요. 이 값들이 나타나게 될 확률을 얘기를 하면 1에서 0까지의 확률 범위를 가지고 있다는 뜻입니다. 01:49 : 어쨌든 이게 문제가 아니라 0과 1 사이의 문제가 아니라, 이 y의 값을 연속형으로 만들어 줘야 되기 때문에 01:58 : -무한대에서 +무한대까지의 값을 가질 수 있도록 변환시켜 주는 게 필요하다고요. 그 변환을 뭐라고 얘기하냐면 로짓 변환이라고 합니다. 02:08 : 로짓 변환. 그래서 로짓 변화을 시키는 일련의 절차들이 쭉 나와 있습니다. 02:17 : 그러면 간단하게 여기에 쓰인 대로 한번 정리하고 가겠습니다. 선형회귀식 기본적인 선형회귀식. 앞에서 썼던 모형하고 조금 다르죠. 02:28 : 앞쪽에서 가장 일반적으로 쓰는 모형 식을 썼습니다. 그래서 새롭게 만들어지는 직선의 회귀식에 y절편+베타 제로+ 02:40 : 그리고 기울기를 만들어내는 베타1Xx1 이거죠. 이게 가장 단순하게 독립변수 하나, 그리고 종속변수 하나인 단순선형회귀모형이었습니다. 02:56 : 그 회귀모형에서 이거라는 얘기하는 게 b 대신에 뭐예요. y 절편 얘기하는 게 b고요. 그다음에 베타1 회귀계수 얘기하는 게 a예요. 03:10 : 그런 식으로 나와 있을 뿐이지 이거하고 똑같은 겁니다. 이게 하나의 단순회귀식 썼던 걸로 보시면 됩니다. 03:17 : 거기서 이 y 값은 0 아니면 1의 값을 갖는 이것을 뭐로 바꾸겠다고요. 확률값 p로 바꾸겠다고요. 03:24 : 왜냐하면 이것은 이렇게 확률 질량 함숫값으로 나타낼 수가 있는 것들이니까요. 그래서 y 자리 대신에 p를 쓰시는 겁니다. 03:35 : 그러면 p를 변형시키게 되면 이 p 값으로 이렇게 변형을 시켜야 되는 거죠. 그럼, 기본적으로 -1에서 이게 아니라 이 범위 안에 들어온다는 얘기니까. 03:49 : 0에서부터 1 사이에 확률값이 바뀌게 될 겁니다. 그리고 이제는 p 대신에 뭐로 바꿀 거냐면 오즈로 바꿀 거예요. 오즈. 04:02 : 오즈로 바꾼다는 거 한번 보세요. 오즈라는 거는 여기에 나와 있는데 실패 확률에 대한 성공 확률의 비율입니다. 04:11 : 즉 실패할 확률 분에 성공할 확률을 success 하는 것과 fail 하는 것에 이 비율을 뭐로 구하는 거냐면 오즈로 구하는 겁니다. 04:28 : 그러면 예를 들어서 성공의 확률을 p라고 썼다고 쳐요. 성공의 확률을 p라고 하면은 실패할 확률은 1-p가 되는 게 당연하겠죠. 04:40 : 이게 앞면이라고 한다면, 이게 뒷면. 앞면이 나올 확률이 0.5면 뒷면이 나올 확률은 1-0.5가 되는 거지 않습니까. 50%. 그 얘기죠. 04:54 : 이 오즈 값으로 바꿔 주시면 되는 겁니다. 그럼 p 대신에 오즈를 쓰는 거니까 보세요. y 대신에 p 썼죠. 05:01 : p 대신에 오즈 쓰는 거죠. 자 그래서 식이 이렇게 완성이 되는 겁니다. 그리고 오즈는 특징이 있어요. 05:11 : 실패하면 0, 성공하게 되면 1. 그게 아니라 이게 비율이기 때문에 하나도 실패하지 않고 성공만 하는 경우에는 05:28 : 0분의 1이니까 어떻게 되는 거예요. 1이 될 수 있겠죠. 그래서 오즈가 가지는 값은 0에서부터 infinity. 무한대까지의 값을 가질 수 있다는 특징이 있습니다. 05:42 : 그럼 여기까지 변환시켰다. 그리고 그다음으로 해야 되는 거는 아직까지는 오즈까지 들어왔을 때는 아직 무한대 -무한대 아니잖아요. 05:55 : 0에서부터 무한대까지의 값으로만 되어 있는 상황이니까. 그걸 대신에 오즈에다가 로그를 시켜서 로그 변환을 한 번 더 시키는 겁니다. 06:06 : 그래서 로그 오즈를 쓰는 거죠. 로그 오즈를 쓰게 되면 공식은 이렇게 바뀔 거예요. 06:13 : 근데 로그 오즈는 아까 오즈 값을 한 번 더 로그 변화시킨 거기 때문에 -무한대에서 +무한대 값을 갖게 되는 겁니다. 06:22 : 그래서 최종의 식을 이런 식으로 완성을 시키는 거예요. 이 식이 이진의 범주형이었었고 그런 회귀 방정식이 여기 보세요. 06:37 : 로그 오즈 값이 -무한대에서 +무한대의 연속형이 됐죠. 그러면 이것도 연속형이고, 이것도 연속형인 일반적인 선형회귀식으로 바뀌게 되는 겁니다. 06:50 : 물론 이 값을 구해야 되겠지만 그래서 일반적인 선형회귀식으로 이렇게 바꾸면 되는 거예요. 06:57 : 그런데 목적은 이 일반적인 로지스틱 회귀식 자체를 만드는 게 목적이 아니고, 이 회귀식을 이용을 해서 로그 오즈 값이 얼만지 07:10 : 이게 궁금한 게 아니라 이것 때문에요. 이 식을 썼을 때 최종적으로 종속변수가 그래서 성공을 했는지, 실패를 했는지 그거를 알려주는 것이 필요한 겁니다. 07:29 : 그래서 나중에 회귀식을 통해서 여기에 해당하는 값이 예를 들어서 0%에 가깝게 나왔다고 한다면 이거는 실패할 확률이 더 많다는 얘기고요. 07:46 : 실패했을 거다, 또는 실패할 확률이 크다는 얘기고 1에 가까운 값이 나와지면, 이거는 성공 1%가 아니라고 했죠. 07:57 : 1에 가까운 값이 나와지면, 이거는 성공할 분류, 성공적으로 분류를 할 수 있다라는 얘기가 되겠죠. 08:05 : 그래서 목적은 이 로그 오즈 값이 얼만지를 아는 것이 아니라 그걸 통해서 나중에 최종적으로 08:12 : 이 독립변수가 실패인지, 성공인지를 분류하기 위한 그걸 확인하는 것이 필요하기 때문에 그래서 이 식으로 다시 한번 더 p에 대해서 정리하는 겁니다. 08:26 : p가 아까 뭐였습니까. 성공할 확률이라고 했잖습니까. 그래서 쭉 정리하는 과정들이 나와 있습니다. 08:33 : 이것까지 아실 필요도 없어요. 그래서 p에 대해서 이렇게 정리를 하게 되면 최종적으로 이게 딱 계산이 돼서 나와요. 08:42 : 이걸 뭐라고 부르냐면, 시그모이드 함수라고 부르거든요. 그래서 시그모이드 함수를 가지고 그래프로 나타나는 게 08:51 : 오른쪽에 있는 이 그래프가 되겠습니다. 이 시그모이드 함수 같은 경우에는 보시는 것처럼 x축 값이 나와 있지 않습니까. 08:59 : x값은 얼마다. 라고 대입을 하게 되면요. 거기에 대응하는 확률 질량 함숫값이 나옵니다. 09:06 : 즉 p 값이 나오는데 그게 예를 들어서 여기 한번 볼까요. -5라는 값을 입력을 하게 되면 이 함수에 대응되는 게 여기에 찍히죠. 쭉 가봅시다. 09:22 : 그러면 0.5를 기준으로 했을 때 조금 어느 쪽에 더 가까워요. 1에 조금 더 가깝겠죠. 그러면 높은 것이 만약 성공이다. 라고 한다면 09:34 : x가 어떤 변수인지는 모르겠지만 x를 -5를 입력을 했을 때 시그모이드 함수에 의해서 질량 함숫값이 얼마가 나온다 0.75 정도 나왔습니다. 09:49 : 그럼 이거는 뭔가 성공할 쪽에다가 이렇게 분류를 시키는 그런 종속변수의 해석을 하실 수 있다는 얘기죠. 09:58 : 그리고 x1이 x가 -7 정도 되는 것으로 이렇게 식에다가 입력을 시키면 이렇게 나올 거예요. 10:13 : 그러면 진짜 0에 가까우니까 실패 쪽에 훨씬 더 그쪽으로 분류하는 결과를 만들어 낼 수 있겠죠. 10:22 : 이런 식으로 이용하는 것이 로지스틱 회귀분석의 일련의 변환 과정이고요. 20:00 :	01:13 ~ 02:22		검수 상태 : 불통
lADsP 완전 정복l 로지스틱 회귀분석_1 tu5eJlt4StY	00:05 : 지금까지 회귀분석을 단순선형을 하든 다중선형을 하든 회귀분석을 하면서 독립변수의 수를 가지고 00:19 : 단순이다, 또는 다중이다. 이렇게 회귀분석의 종류를 얘기를 했지 않습니까. 00:25 : 그런데 종속변수는 항상 하나를 얘기를 했었거든요. 근데 그 종속변수에 데이터 타입. 종속변수의 데이터 형식이죠. 00:36 : 종속변수가 지금까지 했던 모든 회귀분석들은요. 다 연속형인 경우에 적용하는 회귀분석 모형이었습니다. 00:46 : 종속변수가 판매량이 됐든, 아니면 매출액이 됐든, 아니면 GDP 수준이 됐든 그게 다 수치화되어 있는. 01:01 : 그리고 실수형의 수치화되어 있는 그런 연속형인 경우에 적용하는 회귀분석모형을 했었습니다. 01:07 : 그런데 종속변수가 이렇게 연속형이 아닌 경우가 있습니다. 01:13 : 특히 어떤 경우냐면 실패 아니면 성공, 정품 아니면 분량, 합격 아니면 불합격과 같이 이진의 참 아니면 거짓으로 나타나는 01:25 : 이진이라고 얘기를 하거든요. 이진의 범주형인 그런 종속변수가 있습니다. 그러면 그런 종속변수가 있는 그런 상황에서는 01:37 : 회귀분석을 일반적인 분석을 할 수 없다는 얘기예요. 그럴 때는 특별한 회귀분석이 필요하고요. 01:46 : 그 회귀분석을 뭐라 부르냐면 로지스틱 회귀분석이라고 얘기를 하는 겁니다. 01:51 : 그래서 로지스틱 회귀분석 같은 경우에는 분류하려는 범주가, 카테고리가 성공 아니면 실패 아니면 02:01 : 남녀와 같이 이진이라고 하는 두 가지 범주로 나눠진 경우에 02:06 : 그래서 분석을 했을 때, 그 분석 결과 이거는 성공에 해당하는지 02:13 : 이거는 실패에 해당하는지를 분류해 주는 그런 결과를 만들어내는 회귀분석을 하려고 할 때 02:22 : 그런 결과를 만들어 내려고 할 때 로지스틱 회귀분석을 하시면 되는 겁니다. 02:29 : 그런데 y라고 하는 변수 자체가 종속변수잖습니까. 이게 종속변수고, 이게 설명하는 독립변수가 되는데 이거는 02:41 : 신경 쓸 필요 없죠. 지금 이걸 얘기를 하려고 하는 게 아니라 바로 이거 얘기하는 거니까. 02:47 : 그래서 y변수가 바로 갖는 값이 0 아니면 1의 값을 갖는다고 해요. 이게 이진이기 때문에. 02:56 : 이렇게 되는 경우에 뭐 하고 비교를 했을 때 문제점이 생기느냐면 이것이 연속형이었을 때 하고 비교를 해보면 03:07 : 어떤 문제가 있다는 것을 아실 수 있습니다. 03:09 : 이런 경우에는 일단은 y가 가질 수 있는 0 아니면 1값만 가지기 때문에 어쩔 수 없이 결정계수 값이 여기서 03:18 : 이거에 대한이 독립변수가 y변수에 대해서 설명하고 있는 그 설명 정도가 굉장히 낮아질 수밖에 없습니다. 03:29 : 이것이 문제가 있어서가 아니라 이것 자체에 데이터 형태 때문에 그렇다는 얘기죠. 03:34 : 그리고 f-test를 하거나 t-test를 해서 유의성이 앞에 있는 a. 앞쪽에서 얘기했던 이게 베타 1이거든요. 이런 거에 대한 03:45 : 회귀계수에 대해서 유의성 검정을 일반적으로 하는 것도 굉장히 어렵습니다. 그래서 전반적으로 종속변수가 03:53 : 이진의 0, 1만 갖는 이런 범주형의 변수가 됐을 때는 문제가 좀 상당히 크기 때문에 어떤 노력을, 어떤 시도를 해야 되냐면 04:07 : 이진의 0,1로 되어 있는 이 이진의 범주형 변수를 어떤 변수로 바꾸면 되겠다. 04:14 : 연속형 변수로. 지금까지 해왔던 아무 문제 없이 결정계수도 충분히 나와지고 회귀계수를 구하는 것도. 04:25 : 가설검정 하는 것도 문제가 없고, 나머지 부분에서도 문제가 없는 그런 연속형의 변수로 바꿔주면 되지 않겠느냐는 겁니다. 04:33 : 그래서 이진의 범주형 변수를 어떤 변수로 바꾼다. 04:39 : 연속형으로 바꾸는 과정이 필요하겠죠. 그렇게 되면 바꾸게 되면 당연히 x변수는, 독립변수는 연속형입니다. 그런데 바꾸게 04:55 : 되면 뭐까지 바뀐다. 이진의 범주형 변수도 뭐로 바뀌는 거예요. 이렇게 연속형으로 이 변수로 바꾸겠다는 얘기입니다. 20:00 :	00:05 ~ 01:13		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :