남은 문제 : 36

문제 1358

College 데이터는 777개의 미국 대학의 각종 통계치를 포함한다. 각 대학에 재학하는 비용이 졸업률(grade Rate)에 미치는 영향을 알아보기 위해 사립학교 여부(Private), 고교성적 상위 10% 학생비율(Top10perc), 등록금(Outstate), 기타지출(Expend)을 활용하기로 했다. 다음 중 아래의 결과물에 대한 설명으로 적절하지 않은 것은 무엇인가?

보기

1.Outstates 변수는 졸업률에 유의한 영향을 미치는 변수이다.
2.고교성적 상위 10% 학생의 비율이 높을수록 졸업률이 높다.
3.다른 설명변수의 조건이 동일할 때 사립학교(Private Yes)의 경우 공립학교(Private No)에 비해 졸업률이 낮다.
4.위의 모형은 유의수준 5% 하에서 유의하다.

정답

해시
태그

lADsP 완전 정복l 최적 회귀방정식_2 FegE9alafT4	00:05 : 후진 제거법이라고 하는 건 글자 그대로 Backward Elimination입니다. 완벽한 다중회귀모형을 만들어 두고요. 00:11 : y에 영향을 미칠까요. 라고 생각되는 모든 변수들을 다 식에다가 참여를 시키는 겁니다. 00:19 : 그래 놓고 다 완전하게 했을 때 전체적으로 x1과 x2, x3가 어우러져서 y변수에 얼마나 영향을 미치는지를 00:33 : 측정을 하는 걸. 그래 놓고 가장 영향이 적은 변수부터 하나씩 제거를 해가는 겁니다. 왜냐하면 다중회귀분석에서는 이 3개의 00:48 : 오른쪽에 있는 이 3개의 독립변수가 어우러져서 y에 얼마나 영향을 미치는지도 측정을 할 수 있지만, 이 개별적인 변수들이요. 00:59 : x1, x2, x3 각각에 대해서도 앞에 붙어 있는 회귀계수 값들이 나중에 나오거든요. 그래서 회귀계수 값을 가지고 01:08 : x1 변수가 제일 y1에 기여하는 바가 크구나 하는 것을 알 수 있도록 해주는 게 회귀계수의 역할입니다. 01:19 : 회귀계수를 쭉 보고 그중에서 제일 회귀계수가 적은, 변수가 베타1이 제일 적었다. 라고 하면 베타1을 모형에서 빼는 방법이죠. 01:32 : 그래서 가장 y에 종속변수에 미치는 영향력을 적게 주는 변수부터 하나씩 제거하면서 더 이상 제거할 게 없을 때까지. 이거 하나 제거했어요. 01:44 : 그리고 x2하고 x3만 있는 자체로 다중회귀분석을 또 해봅니다. 01:50 : 그러면 y값이 또 나오겠죠. 그거하고 x1이 들어 있었을 때, 먼젓번 모형하고 비교해 보면 02:00 : x1이 들어가 있는 게 더 나은지, x1이 없는 게 더 나은지를 판단할 수 있지 않습니까. 그런 식으로 하면서 02:09 : 각각의 이런 변수들을 하나씩 제거하려고 하는 방법 Backward Elimination이라고 하는 방법입니다. 02:17 : stepwise method라고 하는 방법은요. 이것은 전진 선택법에 의해서 변수를 추가 합니다. 02:25 : 그리고 새롭게 추가된 변수에 의해서 y변수의 기여도를 보는 거죠. 02:35 : 그래서 x1 하나 추가했을 때 전체 이만큼의 모형에서의 값이 나와 지지 않습니까. 02:41 : 그리고 난 다음에 x2까지 집어넣고 분석을 해보면, y값이 또 나와 지겠죠. 그래서 x1만 있었을 때 하고 x2까지 02:50 : 들어갔을 때 x2가 들어오니까 더 좋아졌어. 라고 하면 x2는 살려 두는 거죠. 그런데 x2가 들어왔을 때, x1만 있었을 때 훨씬 더 나았어. 라고 하면 03:00 : x2는 별로 기여도가 없는 거죠. 그래서 선택적으로 들어왔다가 또 기여도가 낮으면 어떻게 되는 거예요. 빼버리는 겁니다. 03:08 : x3까지 집어넣었습니다. x3까지 집어넣고 전체 모양을 돌려봤더니 플러스가 되긴 했어요. 03:16 : 기여도가 있는 걸로, 그래서 새 변수가 들어가는데 더 좋다. 라고는 됐습니다. 근데 문제는 뭐냐면 그중에서 각각의 기여도를 봤을 때 03:26 : 이걸 빼 버리는 거죠. 이번에는. x2가 기여도가 낮다고 판단되는 경우 x2를 빼고 돌려 보는 겁니다. 03:32 : 그랬더니 x1, x2, x3가 다 들어 있을 때보다 x2를 빼고 돌린 게 훨씬 더 낫다. 라고 하면 x2가 제거가 되는 겁니다. 03:42 : 그러니까 이런 식으로 단계별로 변수들을 추가 하기도 하고, 제거하기도 하면서 변수의 어떤 선택 여부를 결정을 하는 거죠. 03:55 : 더 이상 들어갔다 뺐다 해서 더 이상 빼는 것도, 포함시키는 것도 할 필요 없겠다. 라고 판단되는 수준이 오면 그때 스톱하고 04:05 : 그 모형을 최적이라고 판단하겠다. 라고 하는 방법이 이 설명 변수의 선택을 통해서 최적의 회귀방정식을 선택하는 방법들이 될 겁니다. 04:16 : 두 번째는 모형 자체인데요. 모형은 아까 말씀대로 분석형으로 쓰는 데이터가 가장 잘 맞는, 그 데이터에 가장 잘 맞는 04:28 : 모형을 찾아내는 방법이고 벌점화 된 선택 기준을 이용해서 최적의 회귀방정식을 찾는 방법이라고 되어있는데 04:35 : 벌점화 된 선택 기준이라고 하는 것은 바로 모형의 복잡도입니다. 그래서 모형의 복잡도가 높게 되면 벌점을 주는 방식으로 04:47 : 어떤 통곗값을 구하는 거죠. 그래서 여기에 보시면 AIC라고 하는 통계량 BIC라고 하는 통계량 04:55 : 그리고 RIC, CIC, DIC라고 하는 전부다 information criterion이라고 하는 것은, 뭔가 선택할 수 있는 criterion이라고 하는 건 기준이거든요. 05:09 : 그래서 뭔가를 선택하려고 할 때, 기준으로 삼는 값을 여기에서 각각 이렇게 5가지 통계량을 볼 수 있습니다. 05:17 : 각각의 통계량들이 어떻게 계산되느냐 라고 하는 것은 계산 공식이 이렇게 나와 있죠. 05:23 : 결코 쉽지 않은 공식입니다. 그래서 공식 자체를 볼 필요는 없고요. 05:28 : 이것들이 의미하는 바가 뭔지를 보시라는 겁니다. AIC 같은 경우에는 여러 개의 모형들이 있습니다. 예를 들어서 05:36 : 회귀모형이 이런 모형도 있고, 이런 모형도 있고, 이런 모형도 있고 후보가 3개인 다중회귀모형이 05:43 : 이렇게 있다고 보면, 아까처럼 y, y, y 이렇게 돼 있는 모형들이 이렇게 있습니다. 05:48 : 그러면 이 각각의 모형에 대해서 AIC라고 하는 공식에 대입해서 05:56 : 첫 번째 다중회귀모형에서도 AIC 값을 구해내는 거고요. 두 번째 회귀모형에서도 AIC 값을 구하고 06:04 : 세 번째 회귀모형에 대해서도 AIC 값을 구합니다. 그런데 AIC 값은 어떻게 보면 전체적으로 주어진 데이터셋에 대한 06:19 : 다중회귀모형의 품질을 평가하기 위한 통계량이 AIC 통계량이라고 얘기할 수 있고, 가정 많이 활용되는 대표적인 통계량이거든요. 06:30 : 그래서 여기에 나와 있는 이 계산된 값들. 각각의 계산값들을 가지고 어떤 걸 선택을 하냐면 가장 최소의 정보 손실을 갖는 모델. 06:41 : 즉 이 값이 제일 작은 거예요. 제일 최솟값이 제일 좋은 모델로 선택을 하는 겁니다. 06:51 : 그래서 이 세 개의 값들을 비교했을 때 뭐가 제일 작더라, 이 값이 제일 작더라. 이렇게 돼야 되겠죠. 07:03 : 이런 식으로 그 크기를, 값을 비교했을 때 세 번째에 있는 AIC 값이 제일 작더라고 하면은 07:10 : 세 번째 있는 모형을 가지고 가장 최적의 모형이다. 라고 선택하는 방법이 벌점화된 선택 기준을 이용하는 방식입니다. 07:20 : AIC가 가장 보편적이긴 하지만 BIC라고 하는 Bayesian information criterion이라는 방법도 있고요. 07:27 : 이거는 Bayesian 이론을 이용해서 어떤 기준값을 만들어 내고, 그 기준값을 가지고 07:35 : 다수의 모형들 중에서 어떤 모형이 최적이냐를 판단하는 거고요. 07:40 : 그거 외에도 이렇게 risk information, covariance 공분산을 이용하는 방법, deviation 편차를 이용하는 방법 07:47 : 여러 가지의 어떤 지표들이 있긴 합니다만 그래도 대표적으로 이 두 가지 보시면 되고요. 07:55 : 가장 좋은 건 하나만 구하지 말고 모든 모형에 대해서 AIC도 구해보고 BIC도 구해 보는 겁니다. 08:02 : 2개 다 구해서, 2개 다 공통적으로 제일 최소로 나오는, 제일 작다. 라고 판단해 되는 그 회귀모형 하나를 08:13 : 선택을 하시면 그게 바로 모형을 선택하는 방법이다. 라고 보시면 될 겁니다. 20:00 :	05:00 ~ 06:24		검수 상태 : 불통
lADsP 완전 정복l 최적 회귀방정식_3 p8dWxx7twMk	00:05 : 최적의 회귀방정식을 선택하려고 할 때 이번에는 선택할 수 있는 기준이 결정계수를 이용하는 겁니다. 00:17 : 특히 말씀드렸던 것처럼 단순선형회귀모형 같은 경우에는 x변수 하나가 y변수 하나에 영향을 미치는 걸 보기 때문에 00:28 : 그때는 결정변수를 가지고요. 결정계수 값을 가지고 바로 전체적으로 모형 자체가 00:36 : 데이터셋을 가지고 모형이 얼마나 데이터셋을 잘 설명하고 있느냐. 판단을 하실 수 있거든요. 00:43 : 그때 결정계수 이용을 했었죠. 결정계수라고 하는 결정변수를 이용을 하게 되면 00:49 : 이 값이 높으면 높을수록 훨씬 더 추정한 모형이 데이터셋을 잘 설명하고 있습니다. 라고 얘기할 수 있는 부분이었습니다. 01:00 : 그런데 문제는 뭐냐면 여기에 나와 있는 것처럼 결정계수는요. 01:06 : 독립변수 설명계수에 개수가 증가하면 결정계수도 같이 동반 증가하는 그런 경향을 보입니다. 01:16 : 그렇기 때문에 원래는 이 변수 자체에 어떤 결정력을 보려고 하는 건데, 이 변수가 가지는 개수가 영향을 미치게 되면 01:29 : 이거는 잘못된 판단을 할 수밖에 없겠죠. 그래서 이런 경우에는 수정 Adjusted R square라고 하는 것을 이용해야 된다고 말씀드렸죠. 01:41 : 최적의 회귀모형을 찾아야 되는 상황이 다중회귀모형인 상황이기 때문에 수정 결정계수를 가지고 판단을 하도록 하겠습니다. 01:55 : 수정 결정계수 같은 경우에는 특징이 있어요. 01:58 : 설명 변수에 개수가 증가함에 따라서 처음에는 감소를 합니다. 이 값이 그러다가 점점 안정화가 되고요. 02:07 : 그리고 나중에 가면 약간 증가하는 경향을 보이거든요. 02:10 : 그렇기 때문에 이 수정된 결정계수 Adjusted R square 이걸 이용해서 변수들을 선택을 한다. 라고 하는 경우에는 02:23 : mse라고 하는 Mean Square Error라고 하는 평균제곱오차. 여기 한번 보시죠. 02:31 : 회귀분석을 하고 나면 이렇게 분산분석표라는 게 만들어진다고 말씀드렸죠. 02:36 : 분산분석표에 보시면요. 표에서 F-통계량의 값을 가지고 이 값이 기각역 안에 귀무가설을 틀렸다고 할 수 있는 02:48 : 이 알파. 예를 들어서 이게 0.05다. 라고 얘기하면 5%의 수준에서 귀무가설을 기각할 수 있다. 라고 하는 02:57 : 기각역이 만들어지는 거지 않습니까. 02:58 : 그래서 검정통계량 값은 귀무가설이 옳다. 라는 전제하에서 구해진 통계량 값이기 때문에 이 통계량이 03:07 : 어디에 포함되면. 이 기각역 안에 포함되면 기각할 수 있는 영역 안에 포함됐기 때문에 이런 경우에는 바로 03:15 : 귀무가설을 reject 시킬 수 있는 겁니다. 틀렸다. 라고 얘기할 수 있는 거고요. 03:21 : reject 시킬 수 있는 거고, 검정통계량 값이 이 기각역에 포함되지 않고 이렇게 위치가 된다고 하면 이때는 03:31 : 귀무가설이 틀렸다고 얘기할 수 없습니다. 03:34 : 귀무가설을 기각할 수가 없는 상태가 되는 거거든요. 그런 경우에는 귀무가설이 옳다가 되는 겁니다. 그럴 때 03:40 : 이런 F-통계량 값까지 다 출력이 되는 것이 분산분석표가 회귀분석을 하게 되면 이 표가 만들어지는데 여기에 보면 이게 있다는 거죠. 03:53 : mse, msr 그리고 이런 것들이 나와 있어요. 그럼 결정계수는 어떻게 계산되는 거냐면요. 04:05 : 결정계수는 전체제곱합이 있죠. sst 분에 회귀제곱합. ssr로 판단하는 것이 회귀제곱합으로 판단하는 것이 결정계수 값입니다. 이거예요. 이거. 04:21 : 그래서 이게 높으면 높을수록 이 값이 1에 가깝게 커지면 커질수록 훨씬 더 모형 자체의 설명력이 더 높다라고 얘기하는 겁니다. 04:31 : 이건 오차는 에러잖아요. 에러보다 정말 의미 있는 거는 회귀계수 이것이 포함되어 있는 그래서 이게 04:41 : 전체에 얼마나 크게 영향을 미치느냐가 얘가 영향을 많이 미쳐야지 좋은 모형이 되는 거지 않습니까. 04:48 : 당연히 에러가 많은 것보다는. 그래서 이것을 얘기할 때 각각의 자유도. 특히 ssr에다가 05:00 : 자유도를 나눠 주게 되면 msr이 나오는 거고, 오차제곱합 mse에다가 이 자유도를 나눠주면 05:09 : mse라고 하는 평균오차제곱이 나오는 거거든요. 지금 이거 얘기하는 거예요. 05:15 : 그래서 수정된 결정계수에서는 바로 이 값을 고려하시면 되는 거거든요. 05:20 : 다시 돌아오겠습니다. 평균제곱오차가 이거는 오차의 평균한 거죠. 오차 제곱을 평균한 거지 않습니까. 05:32 : 그러면 이 오차가 어떤 거. 제일 작은 게 제일 좋겠죠. 얘가 제일 작다. 라면 뭐가 제일 높다는 얘기에요. 05:40 : 회귀계수로 설명할 수 있었던 msr 이것이 더 높다는 뜻이기 때문에 그래서 이 평균제곱오차가 제일 작다. 라고 05:51 : 판단되는 시점에서 스톱하고, 그래서 그 시점에 있는 모형을 가지고 06:02 : 베스트라고 선택을 하시면 되는 겁니다. 그게 수정 결정계수 값을 가지고 판단하는 방법이고요. 최적의 회귀방정식 모델을 찾는 방법이고요. 06:13 : 그다음에 Mallows's cp라고 하는 Mallows라는 사람이 cp라고 하는 공식을 이용을 해서요. 06:20 : 공식이니까 어떤 값이 나오겠죠. 그래서 통계량 값이다. 이렇게 나오는데요. 06:26 : 이거 같은 경우에 모든 변수를 사용한 모형과 그리고 p개의 독립변수. 이게 독립변수의 수예요. 06:33 : 독립변수의 수를 사용한 모형이 몇 개의 독립변수에 사용한 모형이 얼마나 가까운지를 나타내는 06:40 : 통계량이다. 라고 얘기를 하고 있는데 모델의 변수가 더 많아지면 많아질수록 뭐가 작아지느냐면요. 06:49 : 이게 훨씬 더 작아져요. 잔차제곱이라고 했었던 아까 sse라고 하는 거 있었잖아요. 06:57 : 오차들을 제곱한 거. 이게 훨씬 더 작아지게 되는 거거든요. 그래서 될 수 있으면 오차가 07:05 : 작도록 되는 모형이 좋은 모양이 되는 거잖습니까. 그래서 되도록이면 이 잔차들, 오차들이 작은 모형을 선택하기 위해서 07:19 : 모든 변수를 사용한 것과 몇 개의 독립변수를 사용하는 모형 간에 그 관계. 얼마나 가까운지를 나타내는 통계량을 구한 다음에 07:30 : 그러면 이 통계량 값이 작은 것이 필요해요. 그리고 작으면서도 동시에, 이 값이 뭐에 가까운 모형을 선택을 해야 되냐면 07:41 : 독립변수의 수+상수. 이거에 가까운 모형을 선택하는 것이 가장 좋다. 라고 판단합니다. 07:51 : 그래서 보통은 이 통계량 값이 작은 것이 좋아요. 갭이 별로 없는 것이 좋기도 하고요. 07:57 : 그리고 전체적으로 작으면서도 동시에 독립변수의 수와 상수에 가까운 모형을 선택을 하는 것이 가장 좋은 08:06 : 모형이다. 라고 판정하는 방법입니다. 08:11 : 그러면 여기서 판정하는 기준. 여기 나와 있는 거 한 번만 보세요. 이 cp의 값이 08:18 : 독립변수의 수와 비슷한 경우에는 bias가 작고 가장 우수한 모델을 의미를 하죠. 근데 반면에 cp의 값이 오히려 08:27 : 변수의 수보다 더 큰 경우들이 있습니다. CP 값을 구하고 난 다음에, cp 값하고 이것하고 같이 본다. 그랬었는데. 08:36 : CP 값이 설명변수의 수보다 더 작은 경우니까 작은 경우. 이런 경우가 되겠네요. 08:44 : 이 경우가 되겠네요. 그리고 이 경우가 되겠고요. 자 그런 경우에는 좀 문제가 있다는 얘기죠. 이것도 편향이 있다는 얘기고 08:52 : 이것도 편향이 있다는 얘기거든요. 그래서 이거는 필요 없는 변수가 또 있다는 의미이기 때문에 제일 좋은 거는 어떤 경우예요. 08:59 : 서로 간의 갭이 별로 없는 경우. cp하고 근데 이거하고 비슷한 경우가 가장 베스트라고 보시면 됩니다. 09:08 : 그러면 이런 상태가 됐을 때 그 모형이 가장 베스트의 모형이다. 라고 선택하시면 되겠죠. 09:14 : 여기까지가 추정된 회귀방정식이 나왔을 때, 그 방정식이 정말 여기가 최선입니까. 라고 물었을 때 최선인지 아닌지를 09:28 : 판정하는 그래서 최적의 회귀방정식모형을 이렇게 세팅하는 방법들에 대해서 살펴보았습니다. 20:00 :	00:17 ~ 01:41		검수 상태 : 불통
lADsp 완전 정복l 최적 회귀방정식_1 nyPVKWsDFzQ	00:05 : 추정돼 있는 회귀방정식. 회귀모형이 하나 추정이 됐습니다. 00:13 : 그러면 이 모형에 대해서 모형이 얼마나 적합한지, 타당한지에 대해서 가설검정을 하려고 할 때 어떻게 했는지 기억하십니까. 00:24 : 전체 모형의 타당성을 나타내기 위해서 f통계량검정을 했었는데 그때 이렇게 썼던 것 기억하시죠. 00:32 : x1이라고 있는. x1이라고 하는 독립변수. 지금 같은 경우에는 3개의 독립변수가 y변수, 종속변수 00:40 : 하나의 영향을 미치는 그런 회귀식이 만들어져 있지 않습니까. 그럴 때 이렇게 만들었습니다. 00:48 : 첫 번째 모형 자체로 전체를 얘기할 땐 이렇게 하죠. 모든 회귀계수가 00:55 : 모든 회귀계수 즉 베타i가 다 뭐다. 제로이다. 라고 만들죠. 이게 귀무가설이었습니다. 01:05 : 모든 베타i가 제로라고 생각해 보세요. 그럼, 이것도 제로고, 이것도 제로, 이것도 제로예요. 01:11 : 그러면 전체적으로 모형 자체는 상수에 있는. y절편만 가지고 만들어지는 것이기 때문에 01:19 : 회귀모형 자체가 성립을 할 수 없죠. 그런데 이건 바라는 바가 아니에요. 이게 틀렸다가 되기를 원하는 겁니다. 01:27 : 그래야지만 어떤 가설이 참이 되느냐 하면, 바로 이 가설이 참이 되는 거죠. 모든 회귀계수 베타i가 뭐가 아니다. 0이 아니다가 돼야 되는 거죠. 01:39 : 그러면 이것도 값이 있고, 베타2도 값이 있고, 베타3도 값을 가지게 되면, 어는하나 버릴 거 없이 모형이 다 완성되고 01:49 : 모든 독립변수들이 다 포함돼 있는 상태이기 때문에 이렇게 되기를 연구자들은 원한다는 겁니다. 01:59 : 그래서 이렇게 회귀모형을 회귀식 자체를 다중회귀식을 이렇게 추정을 하고나면 모형 자체가 02:07 : 얼마나 타당한지에 대해서 f통계량검정을 통해서 가설에 대한 검정을 하죠. 02:14 : 그래서 이걸 통해서 전체 모형에 대한 타당성을 확인을 하고요. 그다음에 주어져 있는 데이터를 가지고 모형이 02:25 : 얼마나 적합한느냐 하는 것도 보셨고요. 그다음에 이런 설명하는 이런 변수들이 어디까지나 추정돼 있는 것이기 때문에 02:35 : 예측한 것이기 때문에 원래 실제측 하고는 차이가 있을 수밖에 없습니다. 02:43 : 그래서 그럼 잔차라고 하는 걸 가지고 잔차. 실측치와 그다음에 예측치 사이에 잔차를 가지고도 전체적으로 모형 자체가 데이터들을 잘 설명하고 있다. 02:57 : 이런 것들. 주어진 데이터가 모형에 적합하다. 이런 것들을 다 앞쪽에서 얘기를 했었거든요. 03:05 : 그런 식으로 회귀모형은 추정이 됐어요. 다중회귀모형은 추정이 됐습니다. 근데 문제는 뭐냐면 이렇게 회귀모형 내에 03:16 : 많은 설명 변수, 즉 독립변수의 수가 여러 개가 들어와 있지 않습니까. 지금 같은 경우 독립변수 3개가 들어가 있다. 03:24 : 이렇게 했죠. 그런데 이렇게 독립변수의 수가 증가하게 되면요. 이게 많아지게 되면 데이터 관리하는 게 어려워지게 되고요. 03:34 : 그래서 때에 따라서는 어떻게 하는 것이 필요하느냐 하면 종속변수에 영향을 미치는 독립변수를 03:45 : 이렇게 다 포함을 시키는 것이 아니라 어디에 기여도가 큰 거. y에 종속변수에 03:53 : 기여도가 큰 독립변수만 선택적으로 넣어서, 포함시켜 가지고 최적의 회귀방정식을 만들 필요가 있단 얘깁니다. 04:04 : 그러면 어떤 변수들이 이 모형에 들어가야 되고 어떤 변수들은 안 들어가는 게 더 나을 것인지 04:15 : 이것을 판단하는 게 최적의 회귀방정식을 선택하는 첫 번째 방법입니다. 그게 설명 변수의 선택이에요. 04:23 : 그래서 정말 y에 영향을 미칠 수 있는 모든 변수가 아니라 04:28 : 필요한 변수만 회귀식에다가 포함시키려고 하는 방법이 설명 변수를 선택적으로 이용해서 04:40 : 최적을 만들겠다고 하는 방법이고요. 04:42 : 두 번째 최적의 회귀방정식을 만드는 방법은 모형을 선택하는 방법입니다. 04:50 : 이것은 주어져 있는 분석용 데이터에 가장 잘 맞는 모형을 찾아내는 방법이죠. 이 방법 같은 경우에는 04:57 : 뒤쪽에서 한번 살펴보도록 하고요. 05:00 : 그러면 설명 변수들을 선택해서 아주 의미가 있는 중요한 변수들만 가지고 방정식을 구성시키면 05:12 : 그 구성된 방정식의 베스트라고 판단하는 그런 방법론적인 부분을 한번 보겠습니다. 자 단계를 05:21 : 변수 선택하는 방법이 3가지 정도 나와 있습니다. 첫 번째 방법이 바로 전진 선택법입니다. 05:30 : 전진 선택법이라고 하는 건 글자 그대로 Forward Selection이라고 되어 있죠. 05:34 : 어디서부터 출발하냐면 절편만 있는 상수모형에서 출발합니다. 05:39 : 그럼 완전한 모양이 나오기 전에 이 상태에서만 출발을 한다는 얘기에요. 여기서 베타 제로 이게 바로 완전한 다중회귀모형이 만들어지면 05:55 : 어느 y절편을 기준으로 해서 직선이 이렇게 그어지지 않습니까. 06:00 : 이 직선이 만들어 내는 게, 다양한 것들이거든요. 특히나 이렇게 베타1, 베타2 이런 것들이 06:10 : 이런 기울기를. 직선의 기울기를 나타내는 부분이지 않습니까. 06:15 : 근데 이 기울기를 그려내는 직선이 그려지기 전에, 이 직선이 시작하는 y절판 가지고 06:21 : 만들어진 식이 바로 이 식이고 그게 상수모형이라고 하는 겁니다. 06:25 : 여기서부터 시작을 해서요. 중요하다. 라고, 생각하는 설명 변수부터 차례대로 모형을 추가 하는 거죠. 06:33 : x1이라는 변수가 중요한 것 같아. 라고 하면 x1의 기울기를 나타내는 베타1을 이렇게 식에다가 추가를 시켜주는 거죠. 06:44 : 그러면 이 식은 뭐가 되는 겁니까. 06:47 : 독립변수 하나, 종속변수 하나의 단순선형회귀모형이 되는 거고, 여기에 추가를 하나 더 시키는 거죠. 06:54 : 그러니까 x1이 들어있는 단순회귀모형을 가지고 모형을 돌려봤어요. 회귀분석을 해보니까 07:00 : 나름대로 모형 자체도 의미가 있고요. x1도 y에 충분히 크게 설명을 하고 있는 것 같아요. 좋아요. 07:09 : 그럼 x1 합격이에요. 이번에 x2도 집어넣는 겁니다. x2를 집어넣을 때는 x2에 대한 기울기를 나타내고 있는 07:19 : 베타2도 이렇게 집어넣어야 되죠. 이것도 집어넣어서 아까와 마찬가지로 해보는 겁니다. 07:28 : 그래서 b1이 베타1이 0이냐, 아니냐를 가지고 가설검정을 할 수 있죠. 그럼, 베타1이 제로가 아니게 되면 07:40 : 대립가설이 사실이 되면 이 모형 자체는 여기까진 합격. 이거 집어 넣어서 이제는 다중회귀분석을 돌려 보니까, 이거 들어가는 것도 합격. 07:52 : 그런 식으로 중요하다고 생각되는 설명변수부터 하나씩 모양에다가 추가시켜 가지고 전체적으로 07:59 : 모형의 적합성을 판단을 하려고 하는 방법이 바로 전진 선택법입니다. 08:06 : 그래서 세 번째까지 변수로 이렇게 집어넣었어요. 이런 식으로 변수까지 집어넣었습니다. 08:13 : 그러면 더 이상 집어넣었을 때 크게 여기에 기여하는 바가, 증가하는 게 없어요. 그러면 우리가 더 이상 계속 x4, x5 넣을 필요가 없겠죠. 08:23 : 그래서 여기서 멈추는 겁니다. 그렇게 해서 모형을 최적으로 만들어내는 방법을 Forward Selection이라고 하는 방법이 있고요. 20:00 :	00:05 ~ 01:24		검수 상태 : 불통
키워드 :	영상UID :	시작 시간 :	종료 시간 :	우선순위 :

이전 다음