남은 문제 : 36
문제 1288
다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은?
보기
1.히스토그램
2.Q-Q plot
3.Shapiro-Wilks test
4.Durbin-Watson
정답
4
해시
태그
lADsP 완전 정복l 회귀분석_3
1kIXMn-49Ik
00:05
: 이렇게 최소제곱법으로 회귀계수를 구해서 회귀식을 이렇게 추정을 하고 나면. 회귀분석을 수행할 때
00:16
: 그다음으로 어떤 과정들을 거쳐야 할 것인가.
00:20
: 절차대로 따라가 보면 두 가지를 하실 수 있습니다. 첫 번째는 바로 앞에서 추정한 단순선형회귀모형.
00:32
: 아까 추정한 회귀식이 있었죠. 그 회귀식이 아까 어땠습니까.
00:37
: y는 -0.71 + 1.39x라고 하는 이 식이요. 추정된 단순선형회귀식이 통계적으로도 정말 유의할까.
00:57
: 그거에 대해서 검정이 필요하고요.
01:00
: 그리고 두 번째는 이 회귀식 자체는 아무래도 오차도 있어야 되고, 엡실론이라고 하는 오차도 붙어야 되는 부분들이기 때문에
01:11
: 실제 수집한 데이터가 이 회귀모형이죠. 수집한 데이터를 얼마나 잘 설명하고 있는지도 확인할 필요가 있습니다.
01:23
: 그래서 회귀분석을 수행할 때는 확인하고 검정해야 되는 사항이 뭐가 있느냐. 라고 얘기하면.
01:31
: 첫 번째 앞서서 추정했던 그 회귀식 자체가 진짜 통계적으로 유용한 그런 회귀식 또는 회귀모형이 되는지에 대해서 검정 일단 필요하고
01:47
: 두 번째는 이런 추정된 회귀식, 회귀모형이 데이터를 얼마나, 실제 데이터를 얼마나 잘 설명하고 있는지에 대해서도 확인이 필요한 단계입니다.
01:57
: 그걸 여기서 한번 살펴보도록 하겠습니다.
02:02
: 첫 번째 해야 되는 게 추정한 회귀식 자체가 통계적으로 유의한지를 검정해 보겠다고 했었죠.
02:11
: 회귀모형의 통계적인 유의성을 검정하기 위해서 보통 f-통계량.
02:20
: 이게 단순회귀분석을 컴퓨터 패키지라든지 아니면 데이터 분석 도구를 통해서 프로그램화되어 있는
02:29
: 그런 패키지의 도구들을 이용하게 되면 결과적으로 산출 해주는 게 바로 회귀분석의 분산분석표가 이렇게 나와 집니다.
02:39
: 그 표에 보시면은 f-통계량이라고 하는 척도 값이 나오거든요.
02:46
: 이 값을 가지고 회귀모형이, 추정한 회귀식이 통계적으로 유의한가 이걸 확인할 때 이용할 수 있는 겁니다.
03:00
: 그래서 보통 회귀분석의 검정에서는 회귀계수를 검정할 때는 이렇게 f-통계량을 통한 f검정도 할 수 있고요.
03:12
: 또 t검정도 할 수 있습니다. 여기서 t검정의 결과가 안 보이긴 합니다만
03:18
: 때에 따라서는 이렇게 t검정을 하는 것도 가능하다는 거. 그래서 f검정 하거나, t검정 하거나. 2가지 방법을 통해서
03:28
: 추정한 회귀계수 검정. 회귀계수의 검정을 통해서 추정했던 회귀식 자체가 타당한지에 대해서 검정하는 그런 과정입니다.
03:40
: 그럼 검정을 하기 위해서는 1절에서 가설검정의 절차 기억하십니까. 그거 한번 복기해 보시면요.
03:50
: 우선 회귀모형의 유의성을 검정하기 위해서 검정이라고 하는 단계에 들어가면 한 쌍의 가설을 만든다에서부터 출발을 하죠.
04:00
: 그 한 쌍의 가설이 여기에 나와 있습니다.
04:06
: 귀무가설은 독립변수가 종속변수에 영향을 미치는 것과 관련돼 있는, 즉 기울기와 관련되어 있는 회귀계수가
04:17
: 베타 원이었었죠. 그래서 베타 원이 제로다. 얘기는 무슨 말입니까.
04:22
: 독립변수가 종속변수에 어떠한 관계, 통계적인 관계도 없다. 즉 독립변수가 종속변수에 영향을 주지 못한다. 라는 것을
04:33
: 얘기하는 가설이 귀무가설로 들어가는 겁니다.
04:37
: 그리고 연구자는, 아니야 독립변수는 종속변수에 영향을 미쳐. 영향을 주는 게 맞아. 라고 하는 주장을 하고 싶겠죠.
04:46
: 그래서 그 연구자의 주장이 담긴 가설은 베타 원이 제로가 아니다. 라고, 얘기하는 것을 결국 어떤 의미를 가지고 있을까. 이 가설은
04:58
: x변수가 y변수에 영향을 준다. 라고 하는 것을 주장하고 있는 그 가설이
05:06
: 대립가설로 들어와 있는 겁니다. 그러면 한 쌍의 가설을 이렇게 만들죠.
05:11
: 한 쌍의 가설을 만들어 놓고, 그러고 난 다음에 두 번째 단계로 들어가는 것이 어떤 통계량을 통해서 이 귀무가설에 대해서
05:25
: 두 가설을 모두 다 통계적으로 검증할 필요가 없다고 했습니다. 하나만 검정을 하면
05:31
: 귀무가설이 참이냐, 거짓이냐만 검정하면 자동적으로 한 쌍의 대립가설은 참인지 거짓인지 바로 판정을 할 수 있겠지요.
05:40
: 그래서 통계적 검증을 했는데 이 귀무가설이 예를 들어서 TRUE. 참으로 이렇게 나타나면 당연히 대립가설은 뭐가 될까요.
05:52
: FALSE죠. 이건 사실이 아닌 게 되는 거고, 내 주장은 옳지 않은 게 되는 거고. 거꾸로
06:00
: 대부분의 연구자들이 하고자 하는 게 이 귀무가설을 어떻게 하고 싶겠어요.
06:05
: 이게 FALSE야. 이게 틀렸어. 라는 얘기를 하고 싶겠죠. 이게 틀려서 기각이되면 당연히 자동적으로 따로 분석을
06:16
: 안 해봐도, 검정을 안 해 봐도 내 주장이 담긴 대립가설이 사실인 것으로 accept 될 수 있는 겁니다.
06:28
: 받아들여지게 되는 그런 관계가 이 가설 검증의 관계이고요. 귀무가설이 사실인가, 아닌가를 판단하기 위해서
06:36
: 하는 검정 자체가 f-통계량을 통한 f검정을 실시를 하게 될 겁니다.
06:43
: f검정의 f-통계량을 산출하는 식은 여기에 나와 있죠.
06:48
: 그리고 이 식들이 어떤 과정을 통해서 계산돼서 나왔느냐 하는 것들이 분산분석표에
06:54
: 이렇게 친절하게 값들이 다 나옵니다.
06:59
: 자 그리고 여기까지 계산해서 f-통계량 값이 수치적으로 얼마 하는 것도 나와 있어요.
07:05
: 그러면 최종적으로 f-통계량은 귀무가설이 옳다는 전제하에서 계산돼 있는 통계량이기 때문에, 이 통계량을 가지고 귀무가설을
07:18
: 기각할 수 있는 영역. 그걸 유의수준 알파라고 했습니다.
07:23
: 그래서 유의수준 알파 이거는 귀무가설이 틀렸다. 라고, 얘기할 수 있는 그 확률을 유의수준 알파라고 얘기를 하는데요.
07:32
: 유의수준 알파로는 가장 많이 쓰는 것이 1% 그리고 5%, 10%의 유의수준에서 귀무가설의
07:48
: 귀무가설이 옳다라고 전제하에서 계산된 f-통계량 값을 비교하게 되는 겁니다.
07:57
: 그중에서 가장 가운데에 있는 5%를 가장 많이 쓰겠죠.
08:02
: 그래서 통계량 값이 뭐 보다 더 크면. 예를 들어서 유의수준 0.05% 이거보다 작으면
08:15
: 그러면 귀무가설을 틀렸다. 라고 할 수 있는 유의수준이라고 하는 것은 귀무가설을 기각시킬 수 있는 그 영역의 크기거든요.
08:25
: 그래서 이 0.05보다 f검정 통계량이 작으면 이 안에 포함된다는 뜻이기 때문에 이런 경우에는
08:33
: 귀무가설 h0를 reject. 틀렸다. 라고, 기각시킬 수 있게 되는 거고요.
08:42
: 만약에 검정통계량 값이 유의수준보다 더 크게 되는 경우에는 바로 기각역을 넘어서는 경우들
08:51
: 이거보다 더 크게 되면 기각역 안에 포함되지 않고 있는 상황이기 때문에, 그런 경우에는 h0를 기각할 수가 없죠.
09:01
: 그런 경우에는 귀무가설이 사실이다. 라고, 받아들일 수밖에 없는 그런 검정통계를 하는, 가설 검정을 하는
09:14
: 절차들이 회귀분석에서도 이렇게 진행을 하게 되는 겁니다.
20:00
:
01:11
~
02:28
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 회귀분석_6
wVfUcietfCo
00:06
: 회귀계수들의 어떤 유의성을 통해서 추정한 다중회귀모형 자체에 어떤
00:15
: 유의성, 통계적인 유의성도 확인을 하셨고요. 확인하는 방법도 보셨고
00:20
: 그다음에 모형이 얼마나 설명력이 있느냐. 설명력이 높으냐 하는 것은 수정된 결정계수를 가지고 판단을 하시면 된다. 까지 얘기를 했습니다.
00:32
: 그 밖에도 추정된 회귀모형이 얼마나 데이터들을 잘 적합하고 있는지 나타내기 위해서
00:41
: 모형의 잔차를 그래프로 그려서 판단할 수 있거든요. 모형의 잔차라고 얘기를 하면
00:50
: 추정한 회귀식이 이거예요. 그런데 실질적으로 관측된 값들은 여기에 있다.
00:57
: 그럼 예측한 값은 여기 있고 그리고 실제값은 여기에 있으면 이만큼이 뭐라 그랬습니까
01:03
: 오차 또는 잔차라고 했었죠. 그래서 이만큼의 잔차들을 가지고
01:08
: 이거는 +잔차고, 이것은 -잔차겠죠. 그래서 이 잔차들만 가지고 뭘 그려 보냐면 그래프를 그려보는 겁니다.
01:19
: 그게 잔차그래프가 되는 거고요. 이 잔차그래프를 통해서 데이터가 얼마나 잘, 모형이 데이터를 얼마나 잘 설명하고 있는지를 판단할 수 있거든요.
01:35
: 그랬을 때 제대로 만든 모형 같은 경우에는 잔차들을 가지고 그래프를 그렸을 때 잔차가 어떤 분포를 띠어야 되느냐면
01:46
: 정규성이라고 하는 분포를 띠어야 됩니다. 오차, 잔차들의 분포가 어떤 분포를 따른다. 정규분포로 나타나게 되는 거죠.
01:56
: 가운데 중심을 기준으로 해서 좌우가 대칭이고, 전체가 종 모양으로 나타나면 추정한 모형 자체가 데이터들을 잘 적합 시키고 있다.
02:12
: 그래서 잔차의 정규성을 가지고 전체적으로 선형회귀모형을 제대로 수립했는지. 생성을 했는지 확인하는 방법들이 되는 겁니다.
02:26
: 그리고 또 하나는 선형회귀모형이 가지고 있는 다양한. 특히 4가지의 가정들이 있다. 그랬었죠. 그 4가지의 가정이
02:38
: 보시는 것처럼 선형성의 가정 그리고 등분산성의 가정, 독립성의 가정, 그리고 정규성 가정. 이 4가지를 얘기를 하는 거거든요.
02:47
: 그래서 그 가정들을 간단하게 보시면 입력변수와 출력변수의 관계가 선형이어야 한다. 선형회귀분석에서는 정말 중요한 과정입니다.
02:57
: 이게 가장 기본입니다. 이게 입력변수, 출력변수라고 하는 관계는 독립변수와 종속변수 간의 선형으로
03:08
: 그래서 그 관계가 이렇게 일직선의 선형 관계가 나타나야 된다는 것이 회귀분석을 쓸 수 있는
03:14
: 데이터를 가지고 회귀분석을 쓸 거냐, 말 거냐의 결정을 할 때 데이터가 선형성을 띠지 못하면 그것은
03:21
: 회귀분석을 쓸 수 없다는 얘기가 되는 겁니다. 그리고 두 번째가 등분산성입니다. 등분산성은
03:28
: 이런 오차들이 있었죠. 오차들의 분산. 오차를 제곱한 게 오차의 분산이 될 텐데 그 오차의
03:37
: 분산이 x변수하고 무관하게 일정해야 된다. 라고 하는 등분산성입니다. 그리고 세 번째는 입력변수와 오차는
03:46
: 역시 관계가 없어야된다고 하는 것이 입력변수가 바로 독립변수지 않습니까.
03:51
: 독립변수하고 오차 간에는 아무런 관계가 없어야 된다는 것이 독립성이고요.
03:58
: 오차들끼리도 관계가 없어야 된다는 게 비상관성이라고 했는데 이거는.
04:04
: 이건 다른 교제에서는 별로 들고 있는 가정은 아닌 것 같아요. 어쨌든 여기에는 나와 있으니까 체크 하시고요.
04:14
: 그리고 정상성, 정규성이라고 하는 건 아까 말씀드린 대로 오차들을 가지고 분포를 그려보면 그 분포가 어떤
04:21
: 모양새를 띠어야 한다. 정규분포의 모양새를 띠면 수집한 데이터가 충분히 선형의 회귀분석을 통해서 분석해도 된다. 라고 하는
04:34
: 그 기본 전제가 된다. 이렇게 정리하시면 되겠습니다.
04:42
: 그리고 다중회귀분석에 있어서는 한 가지 꼭 고려해야 되는 것이 있는데요. 그게 독립변수들 간의 상관관계가 강하게 나타나는
04:55
: 그런 다중공선성의 문제가 발생하느냐, 발생하지 않느냐를 반드시 고려하셔야 합니다.
05:03
: 다중공선성의 문제가 발생한다. 존재한다고 하는 경우에는 정확한 회귀계수를 추정하는 게 어려울 수밖에 없습니다.
05:16
: 회귀계수의 정확성이 추정이 곤란하다는 얘기는, 추정하는 회귀식 자체를 추정하기가 어렵게 된다는 얘기고
05:23
: 세웠던 회귀식 자체가, 회귀모형 자체가 적합하다. 올바르다. 라고, 판단하는 것도 어렵겠죠. 그래서 이 데이터들에서 특히 독립변수들 간의
05:38
: 상관관계가 높게 나타나지 않는지, 높게 나타나는지부터 먼저 확인하는 그런 과정이 필요하고요.
05:47
: 그걸 다중공선성 검증이라고 얘기를 하는 겁니다. 그러면 다중공선성이 있는지를 어떻게 판단하느냐, 어떻게 파악을 하느냐라고 하는 부분과
05:58
: 그리고 그걸 어떻게 해결할 것인가에 대한 얘기를 나눠보면요. 일단 다중공선성을 검증하는 방법은
06:09
: 3가지 정도 얘기할 수 있거든요. 가장 쉬운 방법이라고 얘기를 하는 것이 독립변수들 간의 상관관계가 있는지를 파악하시면 됩니다.
06:20
: 독립변수들 간의 상관관계. 아까 x1변수도 있었고 x2변수도 있었지 않습니까. 그래서 이 변수들 간의 독립변수들 간의 상관계수
06:30
: 피어슨 상관계수를 통해서 얼마나 상관관계가 높은지를 판단하시면 돼요.
06:37
: 그러면 일차적으로 어려운 다른 검사 방법을 쓰지 않고서도 이 상관계수를 가지고도
06:45
: 다중공선성이 있는 그런 데이터인지, 아닌지를 확인할 수 있겠죠.
06:52
: 이를 제외한 나머지 방법들은 이거에 대한 설명들이 필요한 상황이라서 이것은 이런 방법들이 있다.
07:04
: 검증하는 이런 방법도 있다. 정도만 아시면 되겠고요. 그리고 다중공선성의 문제가 발견이 됐다.
07:13
: 독립변수들 간의 아주 강한 상관관계가 나타났다. 라고 한다면 문제가 있는 독립변수를 제거하시면 됩니다.
07:22
: 기본적으로는 제거하면 되고요. 근데 독립변수를 제거한다는 게 쉽지는 않죠. 이걸 하나를 빼 버리면 또 중요한 변수인데
07:32
: 모형을 세울 때 독립변수가 종속변수에 크게 영향을 미칠 것이다. 라고 생각하고, 중요한 변수라고 해서 모형에
07:42
: 삽입을 시켰는데, 만들어 넣었는데 지금 와서 x2변수 하고의 관계에서 다중공선성 있다고 해서
07:51
: x변수를 무조건 제거를 해버리게 되면, 전체 모형 자체가 균형이 없어지고 그다음에
08:01
: 이것이 여기에 미치는 그런 영향력 같은 것들을 설명하거나 예측할 수 없기 때문에
08:10
: 그런 경우라고 한다면 다른 해결 방법들을 고려할 겁니다.
08:15
: 주성분회귀분석을 할 수도 있고요. 아니면 능형회귀모형이라고 했는데
08:25
: Ridge회귀모형이라고 합니다. Ridge회귀모형
08:29
: 이런 것과 같은 다른 회귀계수들를 추정하는 다른 방법들을 이용해서 문제를 해결하는 방법들도 있거든요.
08:38
: 어쨌든 기본적으로 상관계수를 통해서 독립변수들 간의 상관계수를 통해서 다중공선성이 있는지 검사를 하고
08:48
: 그리고 다중공선성이 있는 그런 상황에서 선형적인 관계, 특히 문제가 있는 변수들은 크게
08:59
: 전체적인 밸런스에 문제가 없는 이상은 제거하는 방법이 가장 손쉬운 방법일 거고 아니면 다른 방법들.
09:08
: 다른 회귀분석을 해야되는 또 다른 모형들을 적용해서 해결하는 방법들이 있으니까 이 정도는
09:16
: 구체적인 내용은 몰라도 이런 것들을 통해서 다중공선성이 있는 그런 선형회귀분석도 해결하는 방법들이 이렇게 있다. 라는 것으로 정리해 주시면 되겠습니다.
20:00
:
02:26
~
03:40
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 회귀분석_5
stFARxS2sqQ
00:05
: 독립변수가 2개 이상의 독립변수가 하나의 종속변수에 영향을 미치는 그 영향 정도를, 또는 그 관계 정도를
00:17
: 추정할 수 있는 통계분석 기법으로 다중선형회귀분석을 한번 살펴보도록 하겠습니다. 독립변수가 2개 이상이기 때문에 독립변수 2개
00:28
: 첫 번째 독립변수 x1이라고 하고 두 번째 독립변수 2개 있다고 한다면 x1, x2 이렇게 얘기할 수 있고요.
00:36
: 종속변수는 하나니까 y변수 이렇게 둘 수 있겠죠.
00:41
: 2개 이상의 독립변수와 하나의 종속변수 간의 관계를 설명하는 회귀식을
00:49
: 이번에 회귀식은 다중선형회귀식이 되겠다. 회귀식이 이렇게 만들어지게 되는 겁니다.
00:56
: 여기서 보시면 회귀식 자체는 회귀식에는 아무래도 직선으로 나타낼 거기 때문에
01:05
: 다중회귀식 선의 y절편을 얘기를 하는. 절편을 얘기하는 회귀계수 베타 0과
01:15
: 그리고 x변수 x1 변수에 회귀계수는 베타 1이라고 하고요. 그리고 두 번째 x2 변수가 있었죠.
01:25
: 그 x2의 독립변수의 y에다가 설명하는 정도를 나타내는 기울기 변수는 베타 2라는 변수가 있습니다.
01:33
: 이후에게 독립변수들이 여러 개가 있으면 쭉 진행을 알겠지만 일단 2개 정도 있다 치고요.
01:42
: 그리고 마지막으로 엡실론. 오차. 실제 관측치와 그리고 추정하는 예측치 간에 그 차이, 오차 또는
01:52
: 잔차를 나타내는 엡실론까지 해서 다중회귀분석의 식이 이렇게 하나가 구해질 수 있습니다.
02:02
: 만들어지는 거죠. 이 식을 통해서 어떤 독립변수가 종속변수에 얼마나 크게 영향을 미치는지를
02:15
: 살펴볼 수 있는데요. 그런 의미에서 이 다중선형회귀분석을 다른 이름으로 뭐라고도 부르냐면 독립변수 수가
02:26
: 많지 않습니까 그렇죠. 그런 의미에서 다변량이라고도 부릅니다.
02:30
: 그래서 다변량회귀분석이라고 다른 교제라든지 이런 쪽에서는 부르고 있기 때문에
02:40
: 다변량회귀분석이라고 한다는 것도 알아보시면 되겠고요.
02:44
: 다중회귀분석도 역시 단순선형회귀분석과 마찬가지로 추정돼 있는 이 회귀모형이 다중회귀모형의
02:54
: 통계적으로 이 모형 자체가 유의할 것인지, 모형의 통계적인 유의성을 가설검정을 통해서 검정을 할 거고요.
03:05
: 그리고 이 모형 자체가 데이터들을 얼마나 잘 설명을 하느냐 모형이 데이터를 얼마나
03:17
: 잘 설명하고 있느냐를 확인하기 위해서 결정계수라고 하는 앞쪽에서 다뤘던. 결정계수라고 하는 결정계수로 한번 판단을 해볼 거고요.
03:30
: 그다음에 여기서 모형이 데이터를 잘 적합하고 있느냐. 하는 정도도 결정계수뿐만 아니라 잔차라든지, 종속변수의 산점도.
03:40
: 이런걸 통해서 확인 할 수 있고, 그리고 회귀모형 같은 경우에는 데이터가 전제하는 회귀모형의 가정의 기본적으로 있습니다.
03:51
: 그 가정이 선형성, 독립성, 등분산성, 비상관성 또는 정상성 이런 것들이 대표적으로
04:02
: 4가지가 기본적으로 회귀모형의 기본 가정인데요. 이런 가정이 모형이 만족하고 있는지에 대해서 확인을 해보는
04:15
: 이런 과정들이 다중선형회귀분석에서는 확인하고 검정해야 되는 그런 내용들로 보시면 되겠습니다.
04:23
: 그럼 다른 것들을 차차 하고 모형 자체가 통계적으로 유의한지를 가설검정을 통해서 볼 건데요.
04:33
: 가설검정은 단순선형이 됐든, 다중선형이 됐든 아니면 단순한 t검정이 됐든 상관없이 가설검정은 모든 절차가 다 동일합니다.
04:45
: 제일 첫 번째로 해야 되는 건 뭡니까.
04:48
: 한 쌍의 가설을 만든다. 한 쌍의 가설을 만들 때는 h0와 그리고 h0가 거짓일 때 선택하는 대립가설
05:00
: alternative hypothesis. h1을 만들어 주시면 되겠죠.
05:04
: 그러면 지금 같은 경우에도 역시 마찬가지로 회귀계수가 0이 아니다. 라는 것을 입증을 하면되는 거기 때문에
05:16
: 그래서 귀무가설 같은 경우에는 이 모든 회귀계수들이 특히 베타i에 해당하는 회귀계수들이 뭐다. 라고 얘기하면 돼요.
05:26
: 0이다. 라고 얘기하면 되겠지요. 그래서 모든 회귀계수는 0이다. 라고 하는 가설을 세우는 겁니다.
05:33
: 그러면 그것은 바로 베타1, 베타2와 같은 독립변수의 어떤 회귀계수들. 선형식에서 어떤 기울기를 나타내는
05:41
: 독립변수에 대한 회귀계수들이 0이다. 라고 만들면 이게 귀무가설이고. 아니야, 모든 게 다 0은 아니야. 라고
05:49
: 얘기를 하는 그래서 모든 회귀계수가 0이 아니야. 라고 얘기를 하는 대립가설을 이렇게 한 쌍으로 만들어 두시면 됩니다.
05:59
: 그러면 검정하는 가설은 어떤 가설만 가지고 하면 된다. 귀무가설만 가지고 얘기하면 된다고 했었죠. 귀무가설이 참이다. 거짓이다. 라는 것을
06:09
: 검정하기 위해서는 귀무가설이 사실이다. 라는 전제하에서 뭘 구해야 되냐면 검정통계량을 구해주셔야 됩니다.
06:18
: 회귀분석은 단순도 마찬가지고, 다중도 마찬가지고요. 일반적으로 t검정도 할 수 있지만 이렇게 f-통계량을 구해서 f검정을 하는 것이 일반적이거든요.
06:31
: f검정을 하는 공식은 아까하고 똑같죠. 그래서 이 식을 대입을 하게 되면, 이 식에다가 값들을 대입하게 되면 이렇게 f-통계량 값이 나올 겁니다.
06:41
: 그것은 귀무가설이 사실이라는 전제하에서 계산되는 f-통계량 값이 나오거든요.
06:47
: 그래서 이 통계량 값을 어디에다 위치시켜 본다. 유의수준 알파. 유의 수준 알파는 1%도 될 수 있고
06:58
: 5%도 될 수 있고, 10%를 수립할 수도 있다고 했었죠. 근데 가장 많이 하는 것이 5%.
07:05
: 그러면 5%를 이렇게 확률로 나타내면 0.05가 되겠죠.
07:10
: 그래서 f검정통계량 값. 즉 귀무가설이 옳다는 전제하에서 구한 f검정통계량 값이 귀무가설을 기각할 수 있는
07:22
: 이 영역. 이 유의수준에 포함이 되면 귀무가설은 뭐가 되고요.
07:30
: 거짓으로 기각이 될 거고요. 이게 기각이 되면 자연스럽게 얘기하고자 하는
07:39
: 내가 수립한, 추정한 이 회귀식에서 모든 회귀계수들은 다 0이 아니다. 라고 하는 회귀식이 의미가 있다. 라는 것을
07:51
: 주장을 할 수 있게 되는 거고, 반대로 0.05라고 하는 유의수준에서 검정통계량이 이 값보다 더 크면
08:03
: 귀무가설을 기각할 수 있는 영역을 벗어나는 것이기 때문에, 검정통계량이 벗어나는 것이기 때문에 그런 경우에는 어쩔 수 없이 추정한 회귀식이 통계적으로 유의하다. 라고
08:15
: 얘기하기가 어렵습니다. 그런 경우에는 당연히 모든 회귀계수가 제로가 된다. 라는 귀무가설이
08:23
: 참이라는 얘기가 되는 거고 귀무가설이 참이라는 얘기는 그걸 해석을 하면
08:29
: 우리가 추정한 회귀식이 통계적으로는 유의하지 않다
08:34
: 이렇게 판정을 하시면 되는 겁니다. 모형의 회귀계수에
08:40
: 유의성을 통해서 모형이 타당한지, 타당하지 않은지에 대해서 검증을 했다. 라고 한다면
08:49
: 더불어서 또 살펴볼 수 있는 게 추정한 모형의 설명력이죠. 설명력.
08:58
: 그래서 추정한 회귀모형이 얼마나 데이터들을 잘 설명하고 있느냐 그 설명력을
09:08
: 결정계수라고 하는 결정계수를 통해서 확인할 수 있게 됩니다.
09:12
: 결정계수는 가질 수 있는 범위가 아까 보셨던 것처럼 0에서 1까지의 값을 가질 수 있는데
09:19
: 당연히 높으면 높을수록 훨씬 더 모형 자체가 설명력을 갖는다. 더 잘 설명한다. 라고, 얘기할 수 있는데요.
09:29
: 다만 이게 단순선형회귀분석하고 같은 방법으로 해석을 하시면 됩니다. 해석하는 방법은
09:37
: 결정계수를 해석하는 것은 똑같은데 차이점이라고 얘기를 하면 다중회귀분석에서는 독립변수의 유의성과 관계없이
09:49
: 독립변수의 수가 많아지면 많아질수록 이 결정계수 값이 또 높아지거든요.
09:58
: 그리고 실질적으로는 독립변수들이 얼마나 전체적으로 모형에서 설명력을 갖느냐를
10:06
: 얘기를 하고 싶은데 그냥 단순히 독립변수의 수가 늘어나도 결정계수가 높아지는
10:14
: 그런 경향을 보이기 때문에 당연히 이거는 결정계수 자체가 모형의 설명력을 얘기할 때는 문제가 되겠죠.
10:23
: 그래서 이런 점을 보완하기 위해서 등장한 것이 Adjusted R-squared라고 하는 결정계수인데 앞에 Adjusted.
10:33
: 수정이라고 하는 게 들어가 있습니다. 그래서 수정된 결정계수 값이 컴퓨터 패키지를 이용하거나 아니면
10:43
: 엑셀에서 통계하는 그런 데이터 분석 기능을 쓰게 되며 결정계수뿐만 아니라 뭐도 산출해 주냐면 수정된 결정계수 값도
10:55
: 수정 결정계수 값도 산출해 주거든요. 그래서 단순선형회귀분석 같은 경우에는 문제없기 때문에
11:02
: 결정계수 가지고 모형의 설명력을 확인하시면 되는 거고요.
11:10
: 다중회귀 같은 경우에는 다소 문제가 있기 때문에 그래서 그걸 보완하기 위해서
11:20
: 역시 산출해 놓고 있는 수정 결정계수라고 하는 이 값을 가지고 아까하고 똑같이 해석하시면 됩니다.
11:30
: 이것도 역시 가지는 범위가 0에서 1까지의 범위를 가지고 1에 가까우면 가까울수록 훨씬 더
11:38
: 모형의 어떤 설명력이 더 높은 그런 모형을 추정했다고 판단을 하시면 되는 겁니다.
20:00
:
02:26
~
04:34
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음