해시 태그
lADsP 완전 정복l 회귀분석_6 wVfUcietfCo
00:06 : 회귀계수들의 어떤 유의성을 통해서 추정한 다중회귀모형 자체에 어떤
00:15 : 유의성, 통계적인 유의성도 확인을 하셨고요. 확인하는 방법도 보셨고
00:20 : 그다음에 모형이 얼마나 설명력이 있느냐. 설명력이 높으냐 하는 것은 수정된 결정계수를 가지고 판단을 하시면 된다. 까지 얘기를 했습니다.
00:32 : 그 밖에도 추정된 회귀모형이 얼마나 데이터들을 잘 적합하고 있는지 나타내기 위해서
00:41 : 모형의 잔차를 그래프로 그려서 판단할 수 있거든요. 모형의 잔차라고 얘기를 하면
00:50 : 추정한 회귀식이 이거예요. 그런데 실질적으로 관측된 값들은 여기에 있다.
00:57 : 그럼 예측한 값은 여기 있고 그리고 실제값은 여기에 있으면 이만큼이 뭐라 그랬습니까
01:03 : 오차 또는 잔차라고 했었죠. 그래서 이만큼의 잔차들을 가지고
01:08 : 이거는 +잔차고, 이것은 -잔차겠죠. 그래서 이 잔차들만 가지고 뭘 그려 보냐면 그래프를 그려보는 겁니다.
01:19 : 그게 잔차그래프가 되는 거고요. 이 잔차그래프를 통해서 데이터가 얼마나 잘, 모형이 데이터를 얼마나 잘 설명하고 있는지를 판단할 수 있거든요.
01:35 : 그랬을 때 제대로 만든 모형 같은 경우에는 잔차들을 가지고 그래프를 그렸을 때 잔차가 어떤 분포를 띠어야 되느냐면
01:46 : 정규성이라고 하는 분포를 띠어야 됩니다. 오차, 잔차들의 분포가 어떤 분포를 따른다. 정규분포로 나타나게 되는 거죠.
01:56 : 가운데 중심을 기준으로 해서 좌우가 대칭이고, 전체가 종 모양으로 나타나면 추정한 모형 자체가 데이터들을 잘 적합 시키고 있다.
02:12 : 그래서 잔차의 정규성을 가지고 전체적으로 선형회귀모형을 제대로 수립했는지. 생성을 했는지 확인하는 방법들이 되는 겁니다.
02:26 : 그리고 또 하나는 선형회귀모형이 가지고 있는 다양한. 특히 4가지의 가정들이 있다. 그랬었죠. 그 4가지의 가정이
02:38 : 보시는 것처럼 선형성의 가정 그리고 등분산성의 가정, 독립성의 가정, 그리고 정규성 가정. 이 4가지를 얘기를 하는 거거든요.
02:47 : 그래서 그 가정들을 간단하게 보시면 입력변수와 출력변수의 관계가 선형이어야 한다. 선형회귀분석에서는 정말 중요한 과정입니다.
02:57 : 이게 가장 기본입니다. 이게 입력변수, 출력변수라고 하는 관계는 독립변수와 종속변수 간의 선형으로
03:08 : 그래서 그 관계가 이렇게 일직선의 선형 관계가 나타나야 된다는 것이 회귀분석을 쓸 수 있는
03:14 : 데이터를 가지고 회귀분석을 쓸 거냐, 말 거냐의 결정을 할 때 데이터가 선형성을 띠지 못하면 그것은
03:21 : 회귀분석을 쓸 수 없다는 얘기가 되는 겁니다. 그리고 두 번째가 등분산성입니다. 등분산성은
03:28 : 이런 오차들이 있었죠. 오차들의 분산. 오차를 제곱한 게 오차의 분산이 될 텐데 그 오차의
03:37 : 분산이 x변수하고 무관하게 일정해야 된다. 라고 하는 등분산성입니다. 그리고 세 번째는 입력변수와 오차는
03:46 : 역시 관계가 없어야된다고 하는 것이 입력변수가 바로 독립변수지 않습니까.
03:51 : 독립변수하고 오차 간에는 아무런 관계가 없어야 된다는 것이 독립성이고요.
03:58 : 오차들끼리도 관계가 없어야 된다는 게 비상관성이라고 했는데 이거는.
04:04 : 이건 다른 교제에서는 별로 들고 있는 가정은 아닌 것 같아요. 어쨌든 여기에는 나와 있으니까 체크 하시고요.
04:14 : 그리고 정상성, 정규성이라고 하는 건 아까 말씀드린 대로 오차들을 가지고 분포를 그려보면 그 분포가 어떤
04:21 : 모양새를 띠어야 한다. 정규분포의 모양새를 띠면 수집한 데이터가 충분히 선형의 회귀분석을 통해서 분석해도 된다. 라고 하는
04:34 : 그 기본 전제가 된다. 이렇게 정리하시면 되겠습니다.
04:42 : 그리고 다중회귀분석에 있어서는 한 가지 꼭 고려해야 되는 것이 있는데요. 그게 독립변수들 간의 상관관계가 강하게 나타나는
04:55 : 그런 다중공선성의 문제가 발생하느냐, 발생하지 않느냐를 반드시 고려하셔야 합니다.
05:03 : 다중공선성의 문제가 발생한다. 존재한다고 하는 경우에는 정확한 회귀계수를 추정하는 게 어려울 수밖에 없습니다.
05:16 : 회귀계수의 정확성이 추정이 곤란하다는 얘기는, 추정하는 회귀식 자체를 추정하기가 어렵게 된다는 얘기고
05:23 : 세웠던 회귀식 자체가, 회귀모형 자체가 적합하다. 올바르다. 라고, 판단하는 것도 어렵겠죠. 그래서 이 데이터들에서 특히 독립변수들 간의
05:38 : 상관관계가 높게 나타나지 않는지, 높게 나타나는지부터 먼저 확인하는 그런 과정이 필요하고요.
05:47 : 그걸 다중공선성 검증이라고 얘기를 하는 겁니다. 그러면 다중공선성이 있는지를 어떻게 판단하느냐, 어떻게 파악을 하느냐라고 하는 부분과
05:58 : 그리고 그걸 어떻게 해결할 것인가에 대한 얘기를 나눠보면요. 일단 다중공선성을 검증하는 방법은
06:09 : 3가지 정도 얘기할 수 있거든요. 가장 쉬운 방법이라고 얘기를 하는 것이 독립변수들 간의 상관관계가 있는지를 파악하시면 됩니다.
06:20 : 독립변수들 간의 상관관계. 아까 x1변수도 있었고 x2변수도 있었지 않습니까. 그래서 이 변수들 간의 독립변수들 간의 상관계수
06:30 : 피어슨 상관계수를 통해서 얼마나 상관관계가 높은지를 판단하시면 돼요.
06:37 : 그러면 일차적으로 어려운 다른 검사 방법을 쓰지 않고서도 이 상관계수를 가지고도
06:45 : 다중공선성이 있는 그런 데이터인지, 아닌지를 확인할 수 있겠죠.
06:52 : 이를 제외한 나머지 방법들은 이거에 대한 설명들이 필요한 상황이라서 이것은 이런 방법들이 있다.
07:04 : 검증하는 이런 방법도 있다. 정도만 아시면 되겠고요. 그리고 다중공선성의 문제가 발견이 됐다.
07:13 : 독립변수들 간의 아주 강한 상관관계가 나타났다. 라고 한다면 문제가 있는 독립변수를 제거하시면 됩니다.
07:22 : 기본적으로는 제거하면 되고요. 근데 독립변수를 제거한다는 게 쉽지는 않죠. 이걸 하나를 빼 버리면 또 중요한 변수인데
07:32 : 모형을 세울 때 독립변수가 종속변수에 크게 영향을 미칠 것이다. 라고 생각하고, 중요한 변수라고 해서 모형에
07:42 : 삽입을 시켰는데, 만들어 넣었는데 지금 와서 x2변수 하고의 관계에서 다중공선성 있다고 해서
07:51 : x변수를 무조건 제거를 해버리게 되면, 전체 모형 자체가 균형이 없어지고 그다음에
08:01 : 이것이 여기에 미치는 그런 영향력 같은 것들을 설명하거나 예측할 수 없기 때문에
08:10 : 그런 경우라고 한다면 다른 해결 방법들을 고려할 겁니다.
08:15 : 주성분회귀분석을 할 수도 있고요. 아니면 능형회귀모형이라고 했는데
08:25 : Ridge회귀모형이라고 합니다. Ridge회귀모형
08:29 : 이런 것과 같은 다른 회귀계수들를 추정하는 다른 방법들을 이용해서 문제를 해결하는 방법들도 있거든요.
08:38 : 어쨌든 기본적으로 상관계수를 통해서 독립변수들 간의 상관계수를 통해서 다중공선성이 있는지 검사를 하고
08:48 : 그리고 다중공선성이 있는 그런 상황에서 선형적인 관계, 특히 문제가 있는 변수들은 크게
08:59 : 전체적인 밸런스에 문제가 없는 이상은 제거하는 방법이 가장 손쉬운 방법일 거고 아니면 다른 방법들.
09:08 : 다른 회귀분석을 해야되는 또 다른 모형들을 적용해서 해결하는 방법들이 있으니까 이 정도는
09:16 : 구체적인 내용은 몰라도 이런 것들을 통해서 다중공선성이 있는 그런 선형회귀분석도 해결하는 방법들이 이렇게 있다. 라는 것으로 정리해 주시면 되겠습니다.
20:00 :
02:26 ~ 03:40
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 회귀분석_5 stFARxS2sqQ
00:05 : 독립변수가 2개 이상의 독립변수가 하나의 종속변수에 영향을 미치는 그 영향 정도를, 또는 그 관계 정도를
00:17 : 추정할 수 있는 통계분석 기법으로 다중선형회귀분석을 한번 살펴보도록 하겠습니다. 독립변수가 2개 이상이기 때문에 독립변수 2개
00:28 : 첫 번째 독립변수 x1이라고 하고 두 번째 독립변수 2개 있다고 한다면 x1, x2 이렇게 얘기할 수 있고요.
00:36 : 종속변수는 하나니까 y변수 이렇게 둘 수 있겠죠.
00:41 : 2개 이상의 독립변수와 하나의 종속변수 간의 관계를 설명하는 회귀식을
00:49 : 이번에 회귀식은 다중선형회귀식이 되겠다. 회귀식이 이렇게 만들어지게 되는 겁니다.
00:56 : 여기서 보시면 회귀식 자체는 회귀식에는 아무래도 직선으로 나타낼 거기 때문에
01:05 : 다중회귀식 선의 y절편을 얘기를 하는. 절편을 얘기하는 회귀계수 베타 0과
01:15 : 그리고 x변수 x1 변수에 회귀계수는 베타 1이라고 하고요. 그리고 두 번째 x2 변수가 있었죠.
01:25 : 그 x2의 독립변수의 y에다가 설명하는 정도를 나타내는 기울기 변수는 베타 2라는 변수가 있습니다.
01:33 : 이후에게 독립변수들이 여러 개가 있으면 쭉 진행을 알겠지만 일단 2개 정도 있다 치고요.
01:42 : 그리고 마지막으로 엡실론. 오차. 실제 관측치와 그리고 추정하는 예측치 간에 그 차이, 오차 또는
01:52 : 잔차를 나타내는 엡실론까지 해서 다중회귀분석의 식이 이렇게 하나가 구해질 수 있습니다.
02:02 : 만들어지는 거죠. 이 식을 통해서 어떤 독립변수가 종속변수에 얼마나 크게 영향을 미치는지를
02:15 : 살펴볼 수 있는데요. 그런 의미에서 이 다중선형회귀분석을 다른 이름으로 뭐라고도 부르냐면 독립변수 수가
02:26 : 많지 않습니까 그렇죠. 그런 의미에서 다변량이라고도 부릅니다.
02:30 : 그래서 다변량회귀분석이라고 다른 교제라든지 이런 쪽에서는 부르고 있기 때문에
02:40 : 다변량회귀분석이라고 한다는 것도 알아보시면 되겠고요.
02:44 : 다중회귀분석도 역시 단순선형회귀분석과 마찬가지로 추정돼 있는 이 회귀모형이 다중회귀모형의
02:54 : 통계적으로 이 모형 자체가 유의할 것인지, 모형의 통계적인 유의성을 가설검정을 통해서 검정을 할 거고요.
03:05 : 그리고 이 모형 자체가 데이터들을 얼마나 잘 설명을 하느냐 모형이 데이터를 얼마나
03:17 : 잘 설명하고 있느냐를 확인하기 위해서 결정계수라고 하는 앞쪽에서 다뤘던. 결정계수라고 하는 결정계수로 한번 판단을 해볼 거고요.
03:30 : 그다음에 여기서 모형이 데이터를 잘 적합하고 있느냐. 하는 정도도 결정계수뿐만 아니라 잔차라든지, 종속변수의 산점도.
03:40 : 이런걸 통해서 확인 할 수 있고, 그리고 회귀모형 같은 경우에는 데이터가 전제하는 회귀모형의 가정의 기본적으로 있습니다.
03:51 : 그 가정이 선형성, 독립성, 등분산성, 비상관성 또는 정상성 이런 것들이 대표적으로
04:02 : 4가지가 기본적으로 회귀모형의 기본 가정인데요. 이런 가정이 모형이 만족하고 있는지에 대해서 확인을 해보는
04:15 : 이런 과정들이 다중선형회귀분석에서는 확인하고 검정해야 되는 그런 내용들로 보시면 되겠습니다.
04:23 : 그럼 다른 것들을 차차 하고 모형 자체가 통계적으로 유의한지를 가설검정을 통해서 볼 건데요.
04:33 : 가설검정은 단순선형이 됐든, 다중선형이 됐든 아니면 단순한 t검정이 됐든 상관없이 가설검정은 모든 절차가 다 동일합니다.
04:45 : 제일 첫 번째로 해야 되는 건 뭡니까.
04:48 : 한 쌍의 가설을 만든다. 한 쌍의 가설을 만들 때는 h0와 그리고 h0가 거짓일 때 선택하는 대립가설
05:00 : alternative hypothesis. h1을 만들어 주시면 되겠죠.
05:04 : 그러면 지금 같은 경우에도 역시 마찬가지로 회귀계수가 0이 아니다. 라는 것을 입증을 하면되는 거기 때문에
05:16 : 그래서 귀무가설 같은 경우에는 이 모든 회귀계수들이 특히 베타i에 해당하는 회귀계수들이 뭐다. 라고 얘기하면 돼요.
05:26 : 0이다. 라고 얘기하면 되겠지요. 그래서 모든 회귀계수는 0이다. 라고 하는 가설을 세우는 겁니다.
05:33 : 그러면 그것은 바로 베타1, 베타2와 같은 독립변수의 어떤 회귀계수들. 선형식에서 어떤 기울기를 나타내는
05:41 : 독립변수에 대한 회귀계수들이 0이다. 라고 만들면 이게 귀무가설이고. 아니야, 모든 게 다 0은 아니야. 라고
05:49 : 얘기를 하는 그래서 모든 회귀계수가 0이 아니야. 라고 얘기를 하는 대립가설을 이렇게 한 쌍으로 만들어 두시면 됩니다.
05:59 : 그러면 검정하는 가설은 어떤 가설만 가지고 하면 된다. 귀무가설만 가지고 얘기하면 된다고 했었죠. 귀무가설이 참이다. 거짓이다. 라는 것을
06:09 : 검정하기 위해서는 귀무가설이 사실이다. 라는 전제하에서 뭘 구해야 되냐면 검정통계량을 구해주셔야 됩니다.
06:18 : 회귀분석은 단순도 마찬가지고, 다중도 마찬가지고요. 일반적으로 t검정도 할 수 있지만 이렇게 f-통계량을 구해서 f검정을 하는 것이 일반적이거든요.
06:31 : f검정을 하는 공식은 아까하고 똑같죠. 그래서 이 식을 대입을 하게 되면, 이 식에다가 값들을 대입하게 되면 이렇게 f-통계량 값이 나올 겁니다.
06:41 : 그것은 귀무가설이 사실이라는 전제하에서 계산되는 f-통계량 값이 나오거든요.
06:47 : 그래서 이 통계량 값을 어디에다 위치시켜 본다. 유의수준 알파. 유의 수준 알파는 1%도 될 수 있고
06:58 : 5%도 될 수 있고, 10%를 수립할 수도 있다고 했었죠. 근데 가장 많이 하는 것이 5%.
07:05 : 그러면 5%를 이렇게 확률로 나타내면 0.05가 되겠죠.
07:10 : 그래서 f검정통계량 값. 즉 귀무가설이 옳다는 전제하에서 구한 f검정통계량 값이 귀무가설을 기각할 수 있는
07:22 : 이 영역. 이 유의수준에 포함이 되면 귀무가설은 뭐가 되고요.
07:30 : 거짓으로 기각이 될 거고요. 이게 기각이 되면 자연스럽게 얘기하고자 하는
07:39 : 내가 수립한, 추정한 이 회귀식에서 모든 회귀계수들은 다 0이 아니다. 라고 하는 회귀식이 의미가 있다. 라는 것을
07:51 : 주장을 할 수 있게 되는 거고, 반대로 0.05라고 하는 유의수준에서 검정통계량이 이 값보다 더 크면
08:03 : 귀무가설을 기각할 수 있는 영역을 벗어나는 것이기 때문에, 검정통계량이 벗어나는 것이기 때문에 그런 경우에는 어쩔 수 없이 추정한 회귀식이 통계적으로 유의하다. 라고
08:15 : 얘기하기가 어렵습니다. 그런 경우에는 당연히 모든 회귀계수가 제로가 된다. 라는 귀무가설이
08:23 : 참이라는 얘기가 되는 거고 귀무가설이 참이라는 얘기는 그걸 해석을 하면
08:29 : 우리가 추정한 회귀식이 통계적으로는 유의하지 않다
08:34 : 이렇게 판정을 하시면 되는 겁니다. 모형의 회귀계수에
08:40 : 유의성을 통해서 모형이 타당한지, 타당하지 않은지에 대해서 검증을 했다. 라고 한다면
08:49 : 더불어서 또 살펴볼 수 있는 게 추정한 모형의 설명력이죠. 설명력.
08:58 : 그래서 추정한 회귀모형이 얼마나 데이터들을 잘 설명하고 있느냐 그 설명력을
09:08 : 결정계수라고 하는 결정계수를 통해서 확인할 수 있게 됩니다.
09:12 : 결정계수는 가질 수 있는 범위가 아까 보셨던 것처럼 0에서 1까지의 값을 가질 수 있는데
09:19 : 당연히 높으면 높을수록 훨씬 더 모형 자체가 설명력을 갖는다. 더 잘 설명한다. 라고, 얘기할 수 있는데요.
09:29 : 다만 이게 단순선형회귀분석하고 같은 방법으로 해석을 하시면 됩니다. 해석하는 방법은
09:37 : 결정계수를 해석하는 것은 똑같은데 차이점이라고 얘기를 하면 다중회귀분석에서는 독립변수의 유의성과 관계없이
09:49 : 독립변수의 수가 많아지면 많아질수록 이 결정계수 값이 또 높아지거든요.
09:58 : 그리고 실질적으로는 독립변수들이 얼마나 전체적으로 모형에서 설명력을 갖느냐를
10:06 : 얘기를 하고 싶은데 그냥 단순히 독립변수의 수가 늘어나도 결정계수가 높아지는
10:14 : 그런 경향을 보이기 때문에 당연히 이거는 결정계수 자체가 모형의 설명력을 얘기할 때는 문제가 되겠죠.
10:23 : 그래서 이런 점을 보완하기 위해서 등장한 것이 Adjusted R-squared라고 하는 결정계수인데 앞에 Adjusted.
10:33 : 수정이라고 하는 게 들어가 있습니다. 그래서 수정된 결정계수 값이 컴퓨터 패키지를 이용하거나 아니면
10:43 : 엑셀에서 통계하는 그런 데이터 분석 기능을 쓰게 되며 결정계수뿐만 아니라 뭐도 산출해 주냐면 수정된 결정계수 값도
10:55 : 수정 결정계수 값도 산출해 주거든요. 그래서 단순선형회귀분석 같은 경우에는 문제없기 때문에
11:02 : 결정계수 가지고 모형의 설명력을 확인하시면 되는 거고요.
11:10 : 다중회귀 같은 경우에는 다소 문제가 있기 때문에 그래서 그걸 보완하기 위해서
11:20 : 역시 산출해 놓고 있는 수정 결정계수라고 하는 이 값을 가지고 아까하고 똑같이 해석하시면 됩니다.
11:30 : 이것도 역시 가지는 범위가 0에서 1까지의 범위를 가지고 1에 가까우면 가까울수록 훨씬 더
11:38 : 모형의 어떤 설명력이 더 높은 그런 모형을 추정했다고 판단을 하시면 되는 겁니다.
20:00 :
01:11 ~ 02:28
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 회귀분석_5 stFARxS2sqQ
00:05 : 독립변수가 2개 이상의 독립변수가 하나의 종속변수에 영향을 미치는 그 영향 정도를, 또는 그 관계 정도를
00:17 : 추정할 수 있는 통계분석 기법으로 다중선형회귀분석을 한번 살펴보도록 하겠습니다. 독립변수가 2개 이상이기 때문에 독립변수 2개
00:28 : 첫 번째 독립변수 x1이라고 하고 두 번째 독립변수 2개 있다고 한다면 x1, x2 이렇게 얘기할 수 있고요.
00:36 : 종속변수는 하나니까 y변수 이렇게 둘 수 있겠죠.
00:41 : 2개 이상의 독립변수와 하나의 종속변수 간의 관계를 설명하는 회귀식을
00:49 : 이번에 회귀식은 다중선형회귀식이 되겠다. 회귀식이 이렇게 만들어지게 되는 겁니다.
00:56 : 여기서 보시면 회귀식 자체는 회귀식에는 아무래도 직선으로 나타낼 거기 때문에
01:05 : 다중회귀식 선의 y절편을 얘기를 하는. 절편을 얘기하는 회귀계수 베타 0과
01:15 : 그리고 x변수 x1 변수에 회귀계수는 베타 1이라고 하고요. 그리고 두 번째 x2 변수가 있었죠.
01:25 : 그 x2의 독립변수의 y에다가 설명하는 정도를 나타내는 기울기 변수는 베타 2라는 변수가 있습니다.
01:33 : 이후에게 독립변수들이 여러 개가 있으면 쭉 진행을 알겠지만 일단 2개 정도 있다 치고요.
01:42 : 그리고 마지막으로 엡실론. 오차. 실제 관측치와 그리고 추정하는 예측치 간에 그 차이, 오차 또는
01:52 : 잔차를 나타내는 엡실론까지 해서 다중회귀분석의 식이 이렇게 하나가 구해질 수 있습니다.
02:02 : 만들어지는 거죠. 이 식을 통해서 어떤 독립변수가 종속변수에 얼마나 크게 영향을 미치는지를
02:15 : 살펴볼 수 있는데요. 그런 의미에서 이 다중선형회귀분석을 다른 이름으로 뭐라고도 부르냐면 독립변수 수가
02:26 : 많지 않습니까 그렇죠. 그런 의미에서 다변량이라고도 부릅니다.
02:30 : 그래서 다변량회귀분석이라고 다른 교제라든지 이런 쪽에서는 부르고 있기 때문에
02:40 : 다변량회귀분석이라고 한다는 것도 알아보시면 되겠고요.
02:44 : 다중회귀분석도 역시 단순선형회귀분석과 마찬가지로 추정돼 있는 이 회귀모형이 다중회귀모형의
02:54 : 통계적으로 이 모형 자체가 유의할 것인지, 모형의 통계적인 유의성을 가설검정을 통해서 검정을 할 거고요.
03:05 : 그리고 이 모형 자체가 데이터들을 얼마나 잘 설명을 하느냐 모형이 데이터를 얼마나
03:17 : 잘 설명하고 있느냐를 확인하기 위해서 결정계수라고 하는 앞쪽에서 다뤘던. 결정계수라고 하는 결정계수로 한번 판단을 해볼 거고요.
03:30 : 그다음에 여기서 모형이 데이터를 잘 적합하고 있느냐. 하는 정도도 결정계수뿐만 아니라 잔차라든지, 종속변수의 산점도.
03:40 : 이런걸 통해서 확인 할 수 있고, 그리고 회귀모형 같은 경우에는 데이터가 전제하는 회귀모형의 가정의 기본적으로 있습니다.
03:51 : 그 가정이 선형성, 독립성, 등분산성, 비상관성 또는 정상성 이런 것들이 대표적으로
04:02 : 4가지가 기본적으로 회귀모형의 기본 가정인데요. 이런 가정이 모형이 만족하고 있는지에 대해서 확인을 해보는
04:15 : 이런 과정들이 다중선형회귀분석에서는 확인하고 검정해야 되는 그런 내용들로 보시면 되겠습니다.
04:23 : 그럼 다른 것들을 차차 하고 모형 자체가 통계적으로 유의한지를 가설검정을 통해서 볼 건데요.
04:33 : 가설검정은 단순선형이 됐든, 다중선형이 됐든 아니면 단순한 t검정이 됐든 상관없이 가설검정은 모든 절차가 다 동일합니다.
04:45 : 제일 첫 번째로 해야 되는 건 뭡니까.
04:48 : 한 쌍의 가설을 만든다. 한 쌍의 가설을 만들 때는 h0와 그리고 h0가 거짓일 때 선택하는 대립가설
05:00 : alternative hypothesis. h1을 만들어 주시면 되겠죠.
05:04 : 그러면 지금 같은 경우에도 역시 마찬가지로 회귀계수가 0이 아니다. 라는 것을 입증을 하면되는 거기 때문에
05:16 : 그래서 귀무가설 같은 경우에는 이 모든 회귀계수들이 특히 베타i에 해당하는 회귀계수들이 뭐다. 라고 얘기하면 돼요.
05:26 : 0이다. 라고 얘기하면 되겠지요. 그래서 모든 회귀계수는 0이다. 라고 하는 가설을 세우는 겁니다.
05:33 : 그러면 그것은 바로 베타1, 베타2와 같은 독립변수의 어떤 회귀계수들. 선형식에서 어떤 기울기를 나타내는
05:41 : 독립변수에 대한 회귀계수들이 0이다. 라고 만들면 이게 귀무가설이고. 아니야, 모든 게 다 0은 아니야. 라고
05:49 : 얘기를 하는 그래서 모든 회귀계수가 0이 아니야. 라고 얘기를 하는 대립가설을 이렇게 한 쌍으로 만들어 두시면 됩니다.
05:59 : 그러면 검정하는 가설은 어떤 가설만 가지고 하면 된다. 귀무가설만 가지고 얘기하면 된다고 했었죠. 귀무가설이 참이다. 거짓이다. 라는 것을
06:09 : 검정하기 위해서는 귀무가설이 사실이다. 라는 전제하에서 뭘 구해야 되냐면 검정통계량을 구해주셔야 됩니다.
06:18 : 회귀분석은 단순도 마찬가지고, 다중도 마찬가지고요. 일반적으로 t검정도 할 수 있지만 이렇게 f-통계량을 구해서 f검정을 하는 것이 일반적이거든요.
06:31 : f검정을 하는 공식은 아까하고 똑같죠. 그래서 이 식을 대입을 하게 되면, 이 식에다가 값들을 대입하게 되면 이렇게 f-통계량 값이 나올 겁니다.
06:41 : 그것은 귀무가설이 사실이라는 전제하에서 계산되는 f-통계량 값이 나오거든요.
06:47 : 그래서 이 통계량 값을 어디에다 위치시켜 본다. 유의수준 알파. 유의 수준 알파는 1%도 될 수 있고
06:58 : 5%도 될 수 있고, 10%를 수립할 수도 있다고 했었죠. 근데 가장 많이 하는 것이 5%.
07:05 : 그러면 5%를 이렇게 확률로 나타내면 0.05가 되겠죠.
07:10 : 그래서 f검정통계량 값. 즉 귀무가설이 옳다는 전제하에서 구한 f검정통계량 값이 귀무가설을 기각할 수 있는
07:22 : 이 영역. 이 유의수준에 포함이 되면 귀무가설은 뭐가 되고요.
07:30 : 거짓으로 기각이 될 거고요. 이게 기각이 되면 자연스럽게 얘기하고자 하는
07:39 : 내가 수립한, 추정한 이 회귀식에서 모든 회귀계수들은 다 0이 아니다. 라고 하는 회귀식이 의미가 있다. 라는 것을
07:51 : 주장을 할 수 있게 되는 거고, 반대로 0.05라고 하는 유의수준에서 검정통계량이 이 값보다 더 크면
08:03 : 귀무가설을 기각할 수 있는 영역을 벗어나는 것이기 때문에, 검정통계량이 벗어나는 것이기 때문에 그런 경우에는 어쩔 수 없이 추정한 회귀식이 통계적으로 유의하다. 라고
08:15 : 얘기하기가 어렵습니다. 그런 경우에는 당연히 모든 회귀계수가 제로가 된다. 라는 귀무가설이
08:23 : 참이라는 얘기가 되는 거고 귀무가설이 참이라는 얘기는 그걸 해석을 하면
08:29 : 우리가 추정한 회귀식이 통계적으로는 유의하지 않다
08:34 : 이렇게 판정을 하시면 되는 겁니다. 모형의 회귀계수에
08:40 : 유의성을 통해서 모형이 타당한지, 타당하지 않은지에 대해서 검증을 했다. 라고 한다면
08:49 : 더불어서 또 살펴볼 수 있는 게 추정한 모형의 설명력이죠. 설명력.
08:58 : 그래서 추정한 회귀모형이 얼마나 데이터들을 잘 설명하고 있느냐 그 설명력을
09:08 : 결정계수라고 하는 결정계수를 통해서 확인할 수 있게 됩니다.
09:12 : 결정계수는 가질 수 있는 범위가 아까 보셨던 것처럼 0에서 1까지의 값을 가질 수 있는데
09:19 : 당연히 높으면 높을수록 훨씬 더 모형 자체가 설명력을 갖는다. 더 잘 설명한다. 라고, 얘기할 수 있는데요.
09:29 : 다만 이게 단순선형회귀분석하고 같은 방법으로 해석을 하시면 됩니다. 해석하는 방법은
09:37 : 결정계수를 해석하는 것은 똑같은데 차이점이라고 얘기를 하면 다중회귀분석에서는 독립변수의 유의성과 관계없이
09:49 : 독립변수의 수가 많아지면 많아질수록 이 결정계수 값이 또 높아지거든요.
09:58 : 그리고 실질적으로는 독립변수들이 얼마나 전체적으로 모형에서 설명력을 갖느냐를
10:06 : 얘기를 하고 싶은데 그냥 단순히 독립변수의 수가 늘어나도 결정계수가 높아지는
10:14 : 그런 경향을 보이기 때문에 당연히 이거는 결정계수 자체가 모형의 설명력을 얘기할 때는 문제가 되겠죠.
10:23 : 그래서 이런 점을 보완하기 위해서 등장한 것이 Adjusted R-squared라고 하는 결정계수인데 앞에 Adjusted.
10:33 : 수정이라고 하는 게 들어가 있습니다. 그래서 수정된 결정계수 값이 컴퓨터 패키지를 이용하거나 아니면
10:43 : 엑셀에서 통계하는 그런 데이터 분석 기능을 쓰게 되며 결정계수뿐만 아니라 뭐도 산출해 주냐면 수정된 결정계수 값도
10:55 : 수정 결정계수 값도 산출해 주거든요. 그래서 단순선형회귀분석 같은 경우에는 문제없기 때문에
11:02 : 결정계수 가지고 모형의 설명력을 확인하시면 되는 거고요.
11:10 : 다중회귀 같은 경우에는 다소 문제가 있기 때문에 그래서 그걸 보완하기 위해서
11:20 : 역시 산출해 놓고 있는 수정 결정계수라고 하는 이 값을 가지고 아까하고 똑같이 해석하시면 됩니다.
11:30 : 이것도 역시 가지는 범위가 0에서 1까지의 범위를 가지고 1에 가까우면 가까울수록 훨씬 더
11:38 : 모형의 어떤 설명력이 더 높은 그런 모형을 추정했다고 판단을 하시면 되는 겁니다.
20:00 :
00:05 ~ 02:28
1
2
3
검수 상태 : 불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 : 추가