해시 태그
lADsP 완전 정복l 최적 회귀방정식_2 FegE9alafT4
00:05 : 후진 제거법이라고 하는 건 글자 그대로 Backward Elimination입니다. 완벽한 다중회귀모형을 만들어 두고요.
00:11 : y에 영향을 미칠까요. 라고 생각되는 모든 변수들을 다 식에다가 참여를 시키는 겁니다.
00:19 : 그래 놓고 다 완전하게 했을 때 전체적으로 x1과 x2, x3가 어우러져서 y변수에 얼마나 영향을 미치는지를
00:33 : 측정을 하는 걸. 그래 놓고 가장 영향이 적은 변수부터 하나씩 제거를 해가는 겁니다. 왜냐하면 다중회귀분석에서는 이 3개의
00:48 : 오른쪽에 있는 이 3개의 독립변수가 어우러져서 y에 얼마나 영향을 미치는지도 측정을 할 수 있지만, 이 개별적인 변수들이요.
00:59 : x1, x2, x3 각각에 대해서도 앞에 붙어 있는 회귀계수 값들이 나중에 나오거든요. 그래서 회귀계수 값을 가지고
01:08 : x1 변수가 제일 y1에 기여하는 바가 크구나 하는 것을 알 수 있도록 해주는 게 회귀계수의 역할입니다.
01:19 : 회귀계수를 쭉 보고 그중에서 제일 회귀계수가 적은, 변수가 베타1이 제일 적었다. 라고 하면 베타1을 모형에서 빼는 방법이죠.
01:32 : 그래서 가장 y에 종속변수에 미치는 영향력을 적게 주는 변수부터 하나씩 제거하면서 더 이상 제거할 게 없을 때까지. 이거 하나 제거했어요.
01:44 : 그리고 x2하고 x3만 있는 자체로 다중회귀분석을 또 해봅니다.
01:50 : 그러면 y값이 또 나오겠죠. 그거하고 x1이 들어 있었을 때, 먼젓번 모형하고 비교해 보면
02:00 : x1이 들어가 있는 게 더 나은지, x1이 없는 게 더 나은지를 판단할 수 있지 않습니까. 그런 식으로 하면서
02:09 : 각각의 이런 변수들을 하나씩 제거하려고 하는 방법 Backward Elimination이라고 하는 방법입니다.
02:17 : stepwise method라고 하는 방법은요. 이것은 전진 선택법에 의해서 변수를 추가 합니다.
02:25 : 그리고 새롭게 추가된 변수에 의해서 y변수의 기여도를 보는 거죠.
02:35 : 그래서 x1 하나 추가했을 때 전체 이만큼의 모형에서의 값이 나와 지지 않습니까.
02:41 : 그리고 난 다음에 x2까지 집어넣고 분석을 해보면, y값이 또 나와 지겠죠. 그래서 x1만 있었을 때 하고 x2까지
02:50 : 들어갔을 때 x2가 들어오니까 더 좋아졌어. 라고 하면 x2는 살려 두는 거죠. 그런데 x2가 들어왔을 때, x1만 있었을 때 훨씬 더 나았어. 라고 하면
03:00 : x2는 별로 기여도가 없는 거죠. 그래서 선택적으로 들어왔다가 또 기여도가 낮으면 어떻게 되는 거예요. 빼버리는 겁니다.
03:08 : x3까지 집어넣었습니다. x3까지 집어넣고 전체 모양을 돌려봤더니 플러스가 되긴 했어요.
03:16 : 기여도가 있는 걸로, 그래서 새 변수가 들어가는데 더 좋다. 라고는 됐습니다. 근데 문제는 뭐냐면 그중에서 각각의 기여도를 봤을 때
03:26 : 이걸 빼 버리는 거죠. 이번에는. x2가 기여도가 낮다고 판단되는 경우 x2를 빼고 돌려 보는 겁니다.
03:32 : 그랬더니 x1, x2, x3가 다 들어 있을 때보다 x2를 빼고 돌린 게 훨씬 더 낫다. 라고 하면 x2가 제거가 되는 겁니다.
03:42 : 그러니까 이런 식으로 단계별로 변수들을 추가 하기도 하고, 제거하기도 하면서 변수의 어떤 선택 여부를 결정을 하는 거죠.
03:55 : 더 이상 들어갔다 뺐다 해서 더 이상 빼는 것도, 포함시키는 것도 할 필요 없겠다. 라고 판단되는 수준이 오면 그때 스톱하고
04:05 : 그 모형을 최적이라고 판단하겠다. 라고 하는 방법이 이 설명 변수의 선택을 통해서 최적의 회귀방정식을 선택하는 방법들이 될 겁니다.
04:16 : 두 번째는 모형 자체인데요. 모형은 아까 말씀대로 분석형으로 쓰는 데이터가 가장 잘 맞는, 그 데이터에 가장 잘 맞는
04:28 : 모형을 찾아내는 방법이고 벌점화 된 선택 기준을 이용해서 최적의 회귀방정식을 찾는 방법이라고 되어있는데
04:35 : 벌점화 된 선택 기준이라고 하는 것은 바로 모형의 복잡도입니다. 그래서 모형의 복잡도가 높게 되면 벌점을 주는 방식으로
04:47 : 어떤 통곗값을 구하는 거죠. 그래서 여기에 보시면 AIC라고 하는 통계량 BIC라고 하는 통계량
04:55 : 그리고 RIC, CIC, DIC라고 하는 전부다 information criterion이라고 하는 것은, 뭔가 선택할 수 있는 criterion이라고 하는 건 기준이거든요.
05:09 : 그래서 뭔가를 선택하려고 할 때, 기준으로 삼는 값을 여기에서 각각 이렇게 5가지 통계량을 볼 수 있습니다.
05:17 : 각각의 통계량들이 어떻게 계산되느냐 라고 하는 것은 계산 공식이 이렇게 나와 있죠.
05:23 : 결코 쉽지 않은 공식입니다. 그래서 공식 자체를 볼 필요는 없고요.
05:28 : 이것들이 의미하는 바가 뭔지를 보시라는 겁니다. AIC 같은 경우에는 여러 개의 모형들이 있습니다. 예를 들어서
05:36 : 회귀모형이 이런 모형도 있고, 이런 모형도 있고, 이런 모형도 있고 후보가 3개인 다중회귀모형이
05:43 : 이렇게 있다고 보면, 아까처럼 y, y, y 이렇게 돼 있는 모형들이 이렇게 있습니다.
05:48 : 그러면 이 각각의 모형에 대해서 AIC라고 하는 공식에 대입해서
05:56 : 첫 번째 다중회귀모형에서도 AIC 값을 구해내는 거고요. 두 번째 회귀모형에서도 AIC 값을 구하고
06:04 : 세 번째 회귀모형에 대해서도 AIC 값을 구합니다. 그런데 AIC 값은 어떻게 보면 전체적으로 주어진 데이터셋에 대한
06:19 : 다중회귀모형의 품질을 평가하기 위한 통계량이 AIC 통계량이라고 얘기할 수 있고, 가정 많이 활용되는 대표적인 통계량이거든요.
06:30 : 그래서 여기에 나와 있는 이 계산된 값들. 각각의 계산값들을 가지고 어떤 걸 선택을 하냐면 가장 최소의 정보 손실을 갖는 모델.
06:41 : 즉 이 값이 제일 작은 거예요. 제일 최솟값이 제일 좋은 모델로 선택을 하는 겁니다.
06:51 : 그래서 이 세 개의 값들을 비교했을 때 뭐가 제일 작더라, 이 값이 제일 작더라. 이렇게 돼야 되겠죠.
07:03 : 이런 식으로 그 크기를, 값을 비교했을 때 세 번째에 있는 AIC 값이 제일 작더라고 하면은
07:10 : 세 번째 있는 모형을 가지고 가장 최적의 모형이다. 라고 선택하는 방법이 벌점화된 선택 기준을 이용하는 방식입니다.
07:20 : AIC가 가장 보편적이긴 하지만 BIC라고 하는 Bayesian information criterion이라는 방법도 있고요.
07:27 : 이거는 Bayesian 이론을 이용해서 어떤 기준값을 만들어 내고, 그 기준값을 가지고
07:35 : 다수의 모형들 중에서 어떤 모형이 최적이냐를 판단하는 거고요.
07:40 : 그거 외에도 이렇게 risk information, covariance 공분산을 이용하는 방법, deviation 편차를 이용하는 방법
07:47 : 여러 가지의 어떤 지표들이 있긴 합니다만 그래도 대표적으로 이 두 가지 보시면 되고요.
07:55 : 가장 좋은 건 하나만 구하지 말고 모든 모형에 대해서 AIC도 구해보고 BIC도 구해 보는 겁니다.
08:02 : 2개 다 구해서, 2개 다 공통적으로 제일 최소로 나오는, 제일 작다. 라고 판단해 되는 그 회귀모형 하나를
08:13 : 선택을 하시면 그게 바로 모형을 선택하는 방법이다. 라고 보시면 될 겁니다.
20:00 :
00:05 ~ 01:54
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsp 완전 정복l 최적 회귀방정식_1 nyPVKWsDFzQ
00:05 : 추정돼 있는 회귀방정식. 회귀모형이 하나 추정이 됐습니다.
00:13 : 그러면 이 모형에 대해서 모형이 얼마나 적합한지, 타당한지에 대해서 가설검정을 하려고 할 때 어떻게 했는지 기억하십니까.
00:24 : 전체 모형의 타당성을 나타내기 위해서 f통계량검정을 했었는데 그때 이렇게 썼던 것 기억하시죠.
00:32 : x1이라고 있는. x1이라고 하는 독립변수. 지금 같은 경우에는 3개의 독립변수가 y변수, 종속변수
00:40 : 하나의 영향을 미치는 그런 회귀식이 만들어져 있지 않습니까. 그럴 때 이렇게 만들었습니다.
00:48 : 첫 번째 모형 자체로 전체를 얘기할 땐 이렇게 하죠. 모든 회귀계수가
00:55 : 모든 회귀계수 즉 베타i가 다 뭐다. 제로이다. 라고 만들죠. 이게 귀무가설이었습니다.
01:05 : 모든 베타i가 제로라고 생각해 보세요. 그럼, 이것도 제로고, 이것도 제로, 이것도 제로예요.
01:11 : 그러면 전체적으로 모형 자체는 상수에 있는. y절편만 가지고 만들어지는 것이기 때문에
01:19 : 회귀모형 자체가 성립을 할 수 없죠. 그런데 이건 바라는 바가 아니에요. 이게 틀렸다가 되기를 원하는 겁니다.
01:27 : 그래야지만 어떤 가설이 참이 되느냐 하면, 바로 이 가설이 참이 되는 거죠. 모든 회귀계수 베타i가 뭐가 아니다. 0이 아니다가 돼야 되는 거죠.
01:39 : 그러면 이것도 값이 있고, 베타2도 값이 있고, 베타3도 값을 가지게 되면, 어는하나 버릴 거 없이 모형이 다 완성되고
01:49 : 모든 독립변수들이 다 포함돼 있는 상태이기 때문에 이렇게 되기를 연구자들은 원한다는 겁니다.
01:59 : 그래서 이렇게 회귀모형을 회귀식 자체를 다중회귀식을 이렇게 추정을 하고나면 모형 자체가
02:07 : 얼마나 타당한지에 대해서 f통계량검정을 통해서 가설에 대한 검정을 하죠.
02:14 : 그래서 이걸 통해서 전체 모형에 대한 타당성을 확인을 하고요. 그다음에 주어져 있는 데이터를 가지고 모형이
02:25 : 얼마나 적합한느냐 하는 것도 보셨고요. 그다음에 이런 설명하는 이런 변수들이 어디까지나 추정돼 있는 것이기 때문에
02:35 : 예측한 것이기 때문에 원래 실제측 하고는 차이가 있을 수밖에 없습니다.
02:43 : 그래서 그럼 잔차라고 하는 걸 가지고 잔차. 실측치와 그다음에 예측치 사이에 잔차를 가지고도 전체적으로 모형 자체가 데이터들을 잘 설명하고 있다.
02:57 : 이런 것들. 주어진 데이터가 모형에 적합하다. 이런 것들을 다 앞쪽에서 얘기를 했었거든요.
03:05 : 그런 식으로 회귀모형은 추정이 됐어요. 다중회귀모형은 추정이 됐습니다. 근데 문제는 뭐냐면 이렇게 회귀모형 내에
03:16 : 많은 설명 변수, 즉 독립변수의 수가 여러 개가 들어와 있지 않습니까. 지금 같은 경우 독립변수 3개가 들어가 있다.
03:24 : 이렇게 했죠. 그런데 이렇게 독립변수의 수가 증가하게 되면요. 이게 많아지게 되면 데이터 관리하는 게 어려워지게 되고요.
03:34 : 그래서 때에 따라서는 어떻게 하는 것이 필요하느냐 하면 종속변수에 영향을 미치는 독립변수를
03:45 : 이렇게 다 포함을 시키는 것이 아니라 어디에 기여도가 큰 거. y에 종속변수에
03:53 : 기여도가 큰 독립변수만 선택적으로 넣어서, 포함시켜 가지고 최적의 회귀방정식을 만들 필요가 있단 얘깁니다.
04:04 : 그러면 어떤 변수들이 이 모형에 들어가야 되고 어떤 변수들은 안 들어가는 게 더 나을 것인지
04:15 : 이것을 판단하는 게 최적의 회귀방정식을 선택하는 첫 번째 방법입니다. 그게 설명 변수의 선택이에요.
04:23 : 그래서 정말 y에 영향을 미칠 수 있는 모든 변수가 아니라
04:28 : 필요한 변수만 회귀식에다가 포함시키려고 하는 방법이 설명 변수를 선택적으로 이용해서
04:40 : 최적을 만들겠다고 하는 방법이고요.
04:42 : 두 번째 최적의 회귀방정식을 만드는 방법은 모형을 선택하는 방법입니다.
04:50 : 이것은 주어져 있는 분석용 데이터에 가장 잘 맞는 모형을 찾아내는 방법이죠. 이 방법 같은 경우에는
04:57 : 뒤쪽에서 한번 살펴보도록 하고요.
05:00 : 그러면 설명 변수들을 선택해서 아주 의미가 있는 중요한 변수들만 가지고 방정식을 구성시키면
05:12 : 그 구성된 방정식의 베스트라고 판단하는 그런 방법론적인 부분을 한번 보겠습니다. 자 단계를
05:21 : 변수 선택하는 방법이 3가지 정도 나와 있습니다. 첫 번째 방법이 바로 전진 선택법입니다.
05:30 : 전진 선택법이라고 하는 건 글자 그대로 Forward Selection이라고 되어 있죠.
05:34 : 어디서부터 출발하냐면 절편만 있는 상수모형에서 출발합니다.
05:39 : 그럼 완전한 모양이 나오기 전에 이 상태에서만 출발을 한다는 얘기에요. 여기서 베타 제로 이게 바로 완전한 다중회귀모형이 만들어지면
05:55 : 어느 y절편을 기준으로 해서 직선이 이렇게 그어지지 않습니까.
06:00 : 이 직선이 만들어 내는 게, 다양한 것들이거든요. 특히나 이렇게 베타1, 베타2 이런 것들이
06:10 : 이런 기울기를. 직선의 기울기를 나타내는 부분이지 않습니까.
06:15 : 근데 이 기울기를 그려내는 직선이 그려지기 전에, 이 직선이 시작하는 y절판 가지고
06:21 : 만들어진 식이 바로 이 식이고 그게 상수모형이라고 하는 겁니다.
06:25 : 여기서부터 시작을 해서요. 중요하다. 라고, 생각하는 설명 변수부터 차례대로 모형을 추가 하는 거죠.
06:33 : x1이라는 변수가 중요한 것 같아. 라고 하면 x1의 기울기를 나타내는 베타1을 이렇게 식에다가 추가를 시켜주는 거죠.
06:44 : 그러면 이 식은 뭐가 되는 겁니까.
06:47 : 독립변수 하나, 종속변수 하나의 단순선형회귀모형이 되는 거고, 여기에 추가를 하나 더 시키는 거죠.
06:54 : 그러니까 x1이 들어있는 단순회귀모형을 가지고 모형을 돌려봤어요. 회귀분석을 해보니까
07:00 : 나름대로 모형 자체도 의미가 있고요. x1도 y에 충분히 크게 설명을 하고 있는 것 같아요. 좋아요.
07:09 : 그럼 x1 합격이에요. 이번에 x2도 집어넣는 겁니다. x2를 집어넣을 때는 x2에 대한 기울기를 나타내고 있는
07:19 : 베타2도 이렇게 집어넣어야 되죠. 이것도 집어넣어서 아까와 마찬가지로 해보는 겁니다.
07:28 : 그래서 b1이 베타1이 0이냐, 아니냐를 가지고 가설검정을 할 수 있죠. 그럼, 베타1이 제로가 아니게 되면
07:40 : 대립가설이 사실이 되면 이 모형 자체는 여기까진 합격. 이거 집어 넣어서 이제는 다중회귀분석을 돌려 보니까, 이거 들어가는 것도 합격.
07:52 : 그런 식으로 중요하다고 생각되는 설명변수부터 하나씩 모양에다가 추가시켜 가지고 전체적으로
07:59 : 모형의 적합성을 판단을 하려고 하는 방법이 바로 전진 선택법입니다.
08:06 : 그래서 세 번째까지 변수로 이렇게 집어넣었어요. 이런 식으로 변수까지 집어넣었습니다.
08:13 : 그러면 더 이상 집어넣었을 때 크게 여기에 기여하는 바가, 증가하는 게 없어요. 그러면 우리가 더 이상 계속 x4, x5 넣을 필요가 없겠죠.
08:23 : 그래서 여기서 멈추는 겁니다. 그렇게 해서 모형을 최적으로 만들어내는 방법을 Forward Selection이라고 하는 방법이 있고요.
20:00 :
00:05 ~ 02:48
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 회귀분석_5 stFARxS2sqQ
00:05 : 독립변수가 2개 이상의 독립변수가 하나의 종속변수에 영향을 미치는 그 영향 정도를, 또는 그 관계 정도를
00:17 : 추정할 수 있는 통계분석 기법으로 다중선형회귀분석을 한번 살펴보도록 하겠습니다. 독립변수가 2개 이상이기 때문에 독립변수 2개
00:28 : 첫 번째 독립변수 x1이라고 하고 두 번째 독립변수 2개 있다고 한다면 x1, x2 이렇게 얘기할 수 있고요.
00:36 : 종속변수는 하나니까 y변수 이렇게 둘 수 있겠죠.
00:41 : 2개 이상의 독립변수와 하나의 종속변수 간의 관계를 설명하는 회귀식을
00:49 : 이번에 회귀식은 다중선형회귀식이 되겠다. 회귀식이 이렇게 만들어지게 되는 겁니다.
00:56 : 여기서 보시면 회귀식 자체는 회귀식에는 아무래도 직선으로 나타낼 거기 때문에
01:05 : 다중회귀식 선의 y절편을 얘기를 하는. 절편을 얘기하는 회귀계수 베타 0과
01:15 : 그리고 x변수 x1 변수에 회귀계수는 베타 1이라고 하고요. 그리고 두 번째 x2 변수가 있었죠.
01:25 : 그 x2의 독립변수의 y에다가 설명하는 정도를 나타내는 기울기 변수는 베타 2라는 변수가 있습니다.
01:33 : 이후에게 독립변수들이 여러 개가 있으면 쭉 진행을 알겠지만 일단 2개 정도 있다 치고요.
01:42 : 그리고 마지막으로 엡실론. 오차. 실제 관측치와 그리고 추정하는 예측치 간에 그 차이, 오차 또는
01:52 : 잔차를 나타내는 엡실론까지 해서 다중회귀분석의 식이 이렇게 하나가 구해질 수 있습니다.
02:02 : 만들어지는 거죠. 이 식을 통해서 어떤 독립변수가 종속변수에 얼마나 크게 영향을 미치는지를
02:15 : 살펴볼 수 있는데요. 그런 의미에서 이 다중선형회귀분석을 다른 이름으로 뭐라고도 부르냐면 독립변수 수가
02:26 : 많지 않습니까 그렇죠. 그런 의미에서 다변량이라고도 부릅니다.
02:30 : 그래서 다변량회귀분석이라고 다른 교제라든지 이런 쪽에서는 부르고 있기 때문에
02:40 : 다변량회귀분석이라고 한다는 것도 알아보시면 되겠고요.
02:44 : 다중회귀분석도 역시 단순선형회귀분석과 마찬가지로 추정돼 있는 이 회귀모형이 다중회귀모형의
02:54 : 통계적으로 이 모형 자체가 유의할 것인지, 모형의 통계적인 유의성을 가설검정을 통해서 검정을 할 거고요.
03:05 : 그리고 이 모형 자체가 데이터들을 얼마나 잘 설명을 하느냐 모형이 데이터를 얼마나
03:17 : 잘 설명하고 있느냐를 확인하기 위해서 결정계수라고 하는 앞쪽에서 다뤘던. 결정계수라고 하는 결정계수로 한번 판단을 해볼 거고요.
03:30 : 그다음에 여기서 모형이 데이터를 잘 적합하고 있느냐. 하는 정도도 결정계수뿐만 아니라 잔차라든지, 종속변수의 산점도.
03:40 : 이런걸 통해서 확인 할 수 있고, 그리고 회귀모형 같은 경우에는 데이터가 전제하는 회귀모형의 가정의 기본적으로 있습니다.
03:51 : 그 가정이 선형성, 독립성, 등분산성, 비상관성 또는 정상성 이런 것들이 대표적으로
04:02 : 4가지가 기본적으로 회귀모형의 기본 가정인데요. 이런 가정이 모형이 만족하고 있는지에 대해서 확인을 해보는
04:15 : 이런 과정들이 다중선형회귀분석에서는 확인하고 검정해야 되는 그런 내용들로 보시면 되겠습니다.
04:23 : 그럼 다른 것들을 차차 하고 모형 자체가 통계적으로 유의한지를 가설검정을 통해서 볼 건데요.
04:33 : 가설검정은 단순선형이 됐든, 다중선형이 됐든 아니면 단순한 t검정이 됐든 상관없이 가설검정은 모든 절차가 다 동일합니다.
04:45 : 제일 첫 번째로 해야 되는 건 뭡니까.
04:48 : 한 쌍의 가설을 만든다. 한 쌍의 가설을 만들 때는 h0와 그리고 h0가 거짓일 때 선택하는 대립가설
05:00 : alternative hypothesis. h1을 만들어 주시면 되겠죠.
05:04 : 그러면 지금 같은 경우에도 역시 마찬가지로 회귀계수가 0이 아니다. 라는 것을 입증을 하면되는 거기 때문에
05:16 : 그래서 귀무가설 같은 경우에는 이 모든 회귀계수들이 특히 베타i에 해당하는 회귀계수들이 뭐다. 라고 얘기하면 돼요.
05:26 : 0이다. 라고 얘기하면 되겠지요. 그래서 모든 회귀계수는 0이다. 라고 하는 가설을 세우는 겁니다.
05:33 : 그러면 그것은 바로 베타1, 베타2와 같은 독립변수의 어떤 회귀계수들. 선형식에서 어떤 기울기를 나타내는
05:41 : 독립변수에 대한 회귀계수들이 0이다. 라고 만들면 이게 귀무가설이고. 아니야, 모든 게 다 0은 아니야. 라고
05:49 : 얘기를 하는 그래서 모든 회귀계수가 0이 아니야. 라고 얘기를 하는 대립가설을 이렇게 한 쌍으로 만들어 두시면 됩니다.
05:59 : 그러면 검정하는 가설은 어떤 가설만 가지고 하면 된다. 귀무가설만 가지고 얘기하면 된다고 했었죠. 귀무가설이 참이다. 거짓이다. 라는 것을
06:09 : 검정하기 위해서는 귀무가설이 사실이다. 라는 전제하에서 뭘 구해야 되냐면 검정통계량을 구해주셔야 됩니다.
06:18 : 회귀분석은 단순도 마찬가지고, 다중도 마찬가지고요. 일반적으로 t검정도 할 수 있지만 이렇게 f-통계량을 구해서 f검정을 하는 것이 일반적이거든요.
06:31 : f검정을 하는 공식은 아까하고 똑같죠. 그래서 이 식을 대입을 하게 되면, 이 식에다가 값들을 대입하게 되면 이렇게 f-통계량 값이 나올 겁니다.
06:41 : 그것은 귀무가설이 사실이라는 전제하에서 계산되는 f-통계량 값이 나오거든요.
06:47 : 그래서 이 통계량 값을 어디에다 위치시켜 본다. 유의수준 알파. 유의 수준 알파는 1%도 될 수 있고
06:58 : 5%도 될 수 있고, 10%를 수립할 수도 있다고 했었죠. 근데 가장 많이 하는 것이 5%.
07:05 : 그러면 5%를 이렇게 확률로 나타내면 0.05가 되겠죠.
07:10 : 그래서 f검정통계량 값. 즉 귀무가설이 옳다는 전제하에서 구한 f검정통계량 값이 귀무가설을 기각할 수 있는
07:22 : 이 영역. 이 유의수준에 포함이 되면 귀무가설은 뭐가 되고요.
07:30 : 거짓으로 기각이 될 거고요. 이게 기각이 되면 자연스럽게 얘기하고자 하는
07:39 : 내가 수립한, 추정한 이 회귀식에서 모든 회귀계수들은 다 0이 아니다. 라고 하는 회귀식이 의미가 있다. 라는 것을
07:51 : 주장을 할 수 있게 되는 거고, 반대로 0.05라고 하는 유의수준에서 검정통계량이 이 값보다 더 크면
08:03 : 귀무가설을 기각할 수 있는 영역을 벗어나는 것이기 때문에, 검정통계량이 벗어나는 것이기 때문에 그런 경우에는 어쩔 수 없이 추정한 회귀식이 통계적으로 유의하다. 라고
08:15 : 얘기하기가 어렵습니다. 그런 경우에는 당연히 모든 회귀계수가 제로가 된다. 라는 귀무가설이
08:23 : 참이라는 얘기가 되는 거고 귀무가설이 참이라는 얘기는 그걸 해석을 하면
08:29 : 우리가 추정한 회귀식이 통계적으로는 유의하지 않다
08:34 : 이렇게 판정을 하시면 되는 겁니다. 모형의 회귀계수에
08:40 : 유의성을 통해서 모형이 타당한지, 타당하지 않은지에 대해서 검증을 했다. 라고 한다면
08:49 : 더불어서 또 살펴볼 수 있는 게 추정한 모형의 설명력이죠. 설명력.
08:58 : 그래서 추정한 회귀모형이 얼마나 데이터들을 잘 설명하고 있느냐 그 설명력을
09:08 : 결정계수라고 하는 결정계수를 통해서 확인할 수 있게 됩니다.
09:12 : 결정계수는 가질 수 있는 범위가 아까 보셨던 것처럼 0에서 1까지의 값을 가질 수 있는데
09:19 : 당연히 높으면 높을수록 훨씬 더 모형 자체가 설명력을 갖는다. 더 잘 설명한다. 라고, 얘기할 수 있는데요.
09:29 : 다만 이게 단순선형회귀분석하고 같은 방법으로 해석을 하시면 됩니다. 해석하는 방법은
09:37 : 결정계수를 해석하는 것은 똑같은데 차이점이라고 얘기를 하면 다중회귀분석에서는 독립변수의 유의성과 관계없이
09:49 : 독립변수의 수가 많아지면 많아질수록 이 결정계수 값이 또 높아지거든요.
09:58 : 그리고 실질적으로는 독립변수들이 얼마나 전체적으로 모형에서 설명력을 갖느냐를
10:06 : 얘기를 하고 싶은데 그냥 단순히 독립변수의 수가 늘어나도 결정계수가 높아지는
10:14 : 그런 경향을 보이기 때문에 당연히 이거는 결정계수 자체가 모형의 설명력을 얘기할 때는 문제가 되겠죠.
10:23 : 그래서 이런 점을 보완하기 위해서 등장한 것이 Adjusted R-squared라고 하는 결정계수인데 앞에 Adjusted.
10:33 : 수정이라고 하는 게 들어가 있습니다. 그래서 수정된 결정계수 값이 컴퓨터 패키지를 이용하거나 아니면
10:43 : 엑셀에서 통계하는 그런 데이터 분석 기능을 쓰게 되며 결정계수뿐만 아니라 뭐도 산출해 주냐면 수정된 결정계수 값도
10:55 : 수정 결정계수 값도 산출해 주거든요. 그래서 단순선형회귀분석 같은 경우에는 문제없기 때문에
11:02 : 결정계수 가지고 모형의 설명력을 확인하시면 되는 거고요.
11:10 : 다중회귀 같은 경우에는 다소 문제가 있기 때문에 그래서 그걸 보완하기 위해서
11:20 : 역시 산출해 놓고 있는 수정 결정계수라고 하는 이 값을 가지고 아까하고 똑같이 해석하시면 됩니다.
11:30 : 이것도 역시 가지는 범위가 0에서 1까지의 범위를 가지고 1에 가까우면 가까울수록 훨씬 더
11:38 : 모형의 어떤 설명력이 더 높은 그런 모형을 추정했다고 판단을 하시면 되는 겁니다.
20:00 :
00:05 ~ 01:59
1
2
3
검수 상태 : 불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 : 추가