남은 문제 : 36
문제 1284
아래는 결과를 생성한 잔차도이다. 다음 중 어떤 회귀분석의 가정이 위배되었다고 판단할 수 있을지 고르시오.
보기
1.선형성
2.독립성
3.등분산성
4.비상관성
정답
3
해시
태그
lADsP 완전 정복l 회귀분석_2
9vn428KTNBw
00:05
: 회귀분석을 할 때는 최소제거법이나 또는 최소자승법 같은 얘기입니다. 최소제곱법을 이용해서 회귀계수
00:18
: 아까 세웠던 회귀식의 베타 제로와 베타 원에 대한 회귀계수를 추정을 하게 되는데요. 여기서 얘기하는 최소제곱법이란
00:29
: 예측값과 실제값. 아까 예측된 값은 여기였고, 회귀식을 하나 이렇게 만들어 두면 회귀식에서 예측되는 값은 이거고
00:39
: 실제 관측된 값은 이거였었죠. 그래서 예측값과 실제값 간의 차이. 즉 오차 또는 이거를 다른 말로
00:52
: 잔차라고도 합니다 오차 residual 또는 잔차라고 얘기를 하는데요. 이만큼의 차이가 +도 될 수 있지만
01:03
: 이만큼의 차이는 또 -가 될 수도 있죠. 이쪽은 +에 차이가 나타나지만, 이쪽은 -가 나타나죠.
01:10
: 그래서 나중에 이걸 그냥 시그마 취하면. 다 더해버리면 그냥 제로가 되는. 잔차의 합의 제로가 되는
01:18
: 경우들이 있기 때문에 잔차들을 일단 어떻게 한다. 전부다 스퀘어 하는 겁니다. 즉 제곱을 하는 거죠.
01:27
: 제곱을 다 하게 되면 모든 부호들이 +가 되니까 그런 다음에 잔차를 제곱한 것을 나중에 다 시그마를 취하게 되면
01:38
: 그때는 값이 0보다 큰 값이 나오겠죠. 잔차의 제곱합을 최소로 만드는 그래서
01:48
: 이 잔차에 제곱의 합들을 최소로 만드는 그런 직선 하나를 그을 수 있는. 그 직선을 찾는 방법을 뭐라고 하냐면 최소제곱법
02:02
: 또는 최소자승법이라고 얘기를 하는 겁니다. 그래서 최소제곱법을 이용해서
02:10
: 잔차의 제곱합. 잔차들을 제곱한 합을 residual sum of square라고 얘기를 하는데 줄여서 rss는 용어를 쓰거든요.
02:22
: rss. 이게 잔차들의 제곱합이라고 하는 그런 의미의 개념이고요.
02:32
: 잔차 제곱합을 최소로 만들 수 있는 회귀계수를 구하는 공식이 다음과 같습니다.
02:43
: 여기에 나와 있는 베타 제로의 최적의 값. 그런데 여기서 최적의 값이라고 얘기하는 거, 그다음에 베타 원의
02:50
: 최적의 값이라고 얘기하는 것은 결국은 그림을 봤을 때 실제와 예측치 간의 오차들. 잔차들의 제곱을 모두 합한 것을
03:02
: 가장 최소화할 수 있는 그런 직선 하나 그어 줄 수 있는 베타 제로와 베타 원을 찾는 것이 최소제곱법의 방법입니다.
03:15
: 그래서 여기에 회귀계수 rss를 최초로 만드는 회귀계수를 구하는 공식이 여기에 나와 있죠. 베타 제로를 구하는 공식 그리고
03:29
: 베타 원을 구하는 공식. 공식이 쉽다고는 얘기할 수 없습니다. 공식이 주어져 있기는 합니다만 공식이 쉽지는 않고요. 때에 따라서 이렇게 미분까지
03:40
: 해야 되는, 편미분까지 해야 되는 그런 복잡한 공식 과정들을 가지고 있기 때문에 일반적으로
03:48
: 베타 제로, 베타 원과 같은 최소제곱법을 이용해서 베타 제로와 베타 원을 추정하는, 또 회귀식을 추정하는 이 과정을
03:58
: 일일이 손으로 계산식을 통해서 하는 것이 아니고요. 공식은 나와 있다 하더라도 보통은 엑셀 같은 도구에도 보면
04:07
: 데이터 분석이라고 하는 추가옵션 기능이 있거든요. 그래서 그 도구를 쓴다든지 아니면 통계분석을 하기 위해서 전용으로
04:18
: 만들어져있는 컴퓨터 패키지들. 그런 것들을 이용을 해서 최소제곱법에 의해 가지고 가장 잔차들의 제곱합을 최소로 할 수 있는
04:29
: 베타 원과 베타 제로를 찾아서 이 식을 만들 수 있도록 도와주는 겁니다. 에어컨 예약대수 하고 그리고 판매대수가 간의
04:42
: 관계를 보는 건데 지금 보시면 예약대수가 x변수가 되겠죠.
04:48
: 그리고 예약대수에 따라서 영향을 받는 y변수가 있는데요. x변수도 하나고 y변수도 하나이기 때문에
04:59
: 단순선형회귀모형을 만들 수 있는 겁니다.
05:05
: 그러먄 단순선형회귀모형을 만든다는 것은 결국은 이 식을 완성 시킨다고 보시면 되겠죠.
05:14
: 이제는 데이터들이 다 있기 때문에 아까 말씀드린 대로 식을 완성시키기 위해서 여기에 주어져 있는
05:21
: 자료들을 가지고 일일이 공식에다가 넣어서 베타 제로가 최적이 얼마며 베타 원의 회귀계수 최적이 얼만지를 산출해 내는 것이 아니라
05:33
: 컴퓨터 패키지라든지 아니면 엑셀의 회귀분석 도구에다가 집어넣으면 이 데이터를 입력해서 계산할 수 있도록 조작을 하며
05:44
: 알아서 최소제곱법으로 가장 최적의 베타 제로 값이 얼마이고 y절편값이 얼마이고
05:56
: 그리고 회귀식에서 기울기를 나타내는 베타 원이 얼마입니다를 구해줍니다.
06:03
: 그래서 구해봤더니 실질적으로 베타 제로가 얼마가 나왔냐면 -0.71이 나왔고요.
06:12
: 그리고 베타 원은 1.39가 나왔습니다. 그럼 뭘 알게 된 거예요.
06:18
: 최소제곱법에 의해서 베타 제로가 얼마고 베타 원이 얼마인지를 알았죠. 그럼 식에서 완성을 시켜주는 겁니다.
06:27
: 미지수 2개가 없어졌으니까. 그래서 판매대수 y는 - 0.71 그리고 + 베타 원에 해당하는 1.39 그리고 x
06:48
: 이렇게 하시면 기본적으로 어떤 식이 만들어지냐면 이 직선. 이 직선이 하나 이렇게 만들어질 수 있습니다. 생성될 수 있습니다.
06:59
: 그래서 바로 이것을 통해서 이 식이 만들어진 거죠. 기울기가 1.39
20:00
:
00:05
~
01:48
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 회귀분석_1
BnTsLL2DYiw
00:05
: 통계분석에서 두 변수 이런 얘기 많이 하는데요. 통계분석에서 얘기하는 두 변수란
00:12
: 하나의 독립변수에 그리고 하나의 종속변수를. 종속변수 y를 얘길 합니다 하나의 독립변수를 x라고 한다면
00:21
: 하나의 종속변수를 y. 이 변수들을 보통 통계분석에서 두 변수를 얘기를 많이 하죠.
00:31
: 여기서 독립변수는 모형에서 종속변수에 영향을 주고 또 종속변수의 값을 예측하는 데 사용되는 변수를 얘기합니다.
00:45
: 따라서 영향을 주는 변수. 모형에서 종속변수에 영향을 주는 변수라는 측면에서 바로 설명변수라고도 하고요.
00:55
: 그리고 이 예측변수라고도 부르는 것이 바로 독립변수의 다른 이름들이 되겠죠.
01:04
: 반면에 종속변수 같은 경우에는 독립변수로부터 영향을 받는. 영향을 받는다. 라는 측면에서
01:13
: 종속변수를 반응변수. dependent variable이라고 하는 반응변수로 얘기하기도 하고요.
01:20
: 어떤 예측의 결과가 나타나기 때문에 어떤 원인이 됐을 때 거기에 대한 결과로 나타나기 때문에 결과변수. outcome variable이라고 하는
01:31
: 결과변수라는 용어를 쓰기도 합니다. 회귀분석의 변수는 어떤 이름을 부르든지 일단은 영향을 주는 변수와
01:39
: 영향을 받는 이런 독립변수와 종속변수 사이의 함수적인 관계를 나타내는 수학적인 어떤 회귀 방정식을 구하는 것이 목적입니다.
01:52
: 회귀 방정식을 구하고 나면 독립변수 x가 갖는 독립변수에 특정한 값이 주어졌을 때, 이 값에 따른 종속변수의 값을 예측하는
02:11
: 그런 기법을 회귀분석이라고 하고요.
02:15
: 이런 관계이기 때문에 서로 간에 이런 선형적인 관계를 가지고 있기 때문에 회귀분석에서는
02:23
: 두 변수 사이의 독립변수와 종속변수 사이에 서로 영향을 주고받으면서 변화하는 인과관계를 갖는
02:32
: 두 변수 사이에 어떤 관계까지 분석할 수 있게 되는 그런 기법을 회귀분석이라고 합니다.
02:40
: 그리고 회귀분석의 종류를 먼저 좀 살펴보시면요. 두 변수 사이의 관계를 선형으로 나타낼 수 있는
02:50
: 특히 두 변수니까 독립변수 하나와, 종속변수 하나의 어떤 그런 선형적인 관계를 나타낼 수 있는 단순한 선형회귀분석이 있고요.
03:02
: 그리고 둘 이상의 독립변수와 그리고 하나의 종속변수 간에 어떤 선형적인 관계를 살펴보기 위해서 다중선형회귀분석을 실시할 수 있습니다.
03:15
: 뿐만 아니라 이런 변수들은 대부분 다 보면 종속변수들이 다 연속형 숫자로 되어 있는, 특히 연속형인 변수들이
03:24
: 바로 종속변수가 연속형인 어떤 변수들을 가지고 있으면, 그때는 단순선형회귀를 하거나 다중선형회귀를 하면 됩니다.
03:35
: 그런데 때에 따라서는 종속변수가 바로 2진의 어떤 범주형. 2진의 범주형이라고 얘기라는 건
03:43
: 성공 아니면 실패. 0 아니면 1의 값을 갖는다는 얘기이기 때문에, 성공 아니면 실패 또는 합격 아니면 불합격 이런 식의
03:55
: 2진의 어떤 범주형인 그런 종속변수를 갖는. 그런 데이터를 갖는 종속변수가 있다고 하는 경우에는 그때는
04:07
: 일반적으로 쓰는 이런 단순선형회귀라든지 다중선형회귀를 쓸 수는 없고요.
04:12
: 그때 필요한 회귀분석을 할 때 필요한 것은 바로 로지스틱회귀분석이라고 하는 특별한 방법을 사용해야 될 겁니다.
04:22
: 그 외에도 다항회귀라든지, 곡선회기라든지, 비선형회귀라든지 이런 방법들을 제시는 하고 있습니다만.
04:31
: 단순회귀 그리고 다중회귀 그리고 로지스틱회귀. 이 3가지에 대해서 중심을 두고 살펴보는 걸로 하겠습니다.
04:41
: 아까 본 것처럼 하나의 독립변수. 하나의 x변수가 하나의 y변수에 특히 이 y변수는
04:49
: 연속형의 변수이죠. 연속형의 변수입니다.
04:54
: 하나의 독립변수가 하나의 종속변수에 미치는 영향을 추정할 수 있는 그런 회귀분석을 단순선형회귀분석이라고 하고요.
05:06
: 이 분석 같은 경우에는 다음과 같은 식으로 표현을 하죠.
05:12
: 이 식으로 표현을 합니다. 이때 보시면 베타 제로가 있죠.
05:18
: 회귀계수라고 하는 베타 제로가 있고요. 이거는 선형회귀식의 절편.
05:27
: 여기서부터 어떤 하나의 회귀 선이 그려지는 그 절편을 얘기를 하는 부분이고
05:35
: 그리고 베타 원이라고 하는 회귀계수가 보이실 겁니다. 이 베타 원 같은 경우에는 선형회귀식에 기울기를 얘기하는 겁니다.
05:45
: 하나의 절편과 그리고 기울기가 제공이 되면, 선형회귀 그래프에서 그걸 이용해서 직선을 하나
05:55
: 이렇게 그려낼 수 있겠죠. 직선을 하나 그려 낼 겁니다. 이게 바로 단순선형회귀식에 있어서 회귀 선이 되는 겁니다.
06:08
: 그리고 이 회귀 선에 말씀드렸던 베타 제로와 베타 원 같은 경우가 회귀계수라고 우리가 보통 부르고요.
06:17
: 그리고 이 끝에 있는 이 기호는 엡실론. 즉 오차를 나타내는 겁니다.
06:25
: 그림에서 보면 그어 놓은 선은 여기죠. 이런 선들은 실제 데이터의 선이 아니라 데이터를 통해서
06:38
: 추정하는 하나의 회귀식 선이 되는 거거든요. 그런데 실질적으로 이 선에 있는 점이 아니라
06:47
: 실제 점은 어디에 있나요. 여기에 있죠. 그래서 실제 값과, 그리고 추정한 회귀식에서의 추정한 값 간에 이만큼의 차이를 뭐라고 그러냐면
07:03
: 오차. 앱실론이라고 얘기를 하는 겁니다.
07:06
: 그럼, 앱실론들이 이렇게 모든 관측치와 실질적인 관측치하고 추정한 그런 회귀식에서의 계산되는 값과의
07:20
: 어떤 차이로. 그만큼의 차이로 설명될 수 있는 오차를 나타내고 있습니다.
07:27
: 회귀분석은 결국 2개의 회기계수. 베타 제로라고 하는 회귀계수와 그리고 베타 원이라고 하는 이 두 개의 회기 계수를
07:41
: 구하는 것이 회귀계수를 찾아서. 그러면 식이 완성되죠. 식이 완성이 되면 구체적인 함수식을 생성을 할 수 있게 되는 거고요.
07:53
: 그리고 이 회귀계수가 통계적으로 의미가 있는 것인지. 유의미한 것인지를 파악하는 그런 과정으로 가면 될 겁니다.
08:06
: 통계적으로 이 회기계수가 유이하다. 라고 그렇게 판단이 되면, 세웠던 추정했던 회귀모형식도
08:19
: 적합한 모형이 되는 거고, 타당한 모형이 되는 거고요. 이 모형까지 타당성이 확인이 되고 나면
08:27
: 이 식에 있는 독립변수의 특정한 값을 여기 입력을 해주면 이 특정한 값에 대한 종속 변수가
08:37
: 이 값이 계산돼서 나오겠죠. 이게 바로 x에 따른 x변수가 원인이 되고, 거기에 따라서
08:49
: 결과로 나타날 수 있는 예측값이 여기서 얻을 수 있게 되는 겁니다.
08:56
: 그래서 회귀변수는 두 변수 사이의 어떤 관계를. 인과관계를 설명하는 것뿐만 아니라
09:04
: 이 식이 타당할 때, 독립변수의 특정한 입력값이 어떤 값을 가정을 했을 때, 그 값 때문에 결과가 어떠한 결괏값이
09:15
: 나올 수 있는지를 예측하는 그런 목적에서도 이 회귀분석을 이용할 수 있게 되는 것입니다.
20:00
:
00:06
~
01:49
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 회귀분석_3
1kIXMn-49Ik
00:05
: 이렇게 최소제곱법으로 회귀계수를 구해서 회귀식을 이렇게 추정을 하고 나면. 회귀분석을 수행할 때
00:16
: 그다음으로 어떤 과정들을 거쳐야 할 것인가.
00:20
: 절차대로 따라가 보면 두 가지를 하실 수 있습니다. 첫 번째는 바로 앞에서 추정한 단순선형회귀모형.
00:32
: 아까 추정한 회귀식이 있었죠. 그 회귀식이 아까 어땠습니까.
00:37
: y는 -0.71 + 1.39x라고 하는 이 식이요. 추정된 단순선형회귀식이 통계적으로도 정말 유의할까.
00:57
: 그거에 대해서 검정이 필요하고요.
01:00
: 그리고 두 번째는 이 회귀식 자체는 아무래도 오차도 있어야 되고, 엡실론이라고 하는 오차도 붙어야 되는 부분들이기 때문에
01:11
: 실제 수집한 데이터가 이 회귀모형이죠. 수집한 데이터를 얼마나 잘 설명하고 있는지도 확인할 필요가 있습니다.
01:23
: 그래서 회귀분석을 수행할 때는 확인하고 검정해야 되는 사항이 뭐가 있느냐. 라고 얘기하면.
01:31
: 첫 번째 앞서서 추정했던 그 회귀식 자체가 진짜 통계적으로 유용한 그런 회귀식 또는 회귀모형이 되는지에 대해서 검정 일단 필요하고
01:47
: 두 번째는 이런 추정된 회귀식, 회귀모형이 데이터를 얼마나, 실제 데이터를 얼마나 잘 설명하고 있는지에 대해서도 확인이 필요한 단계입니다.
01:57
: 그걸 여기서 한번 살펴보도록 하겠습니다.
02:02
: 첫 번째 해야 되는 게 추정한 회귀식 자체가 통계적으로 유의한지를 검정해 보겠다고 했었죠.
02:11
: 회귀모형의 통계적인 유의성을 검정하기 위해서 보통 f-통계량.
02:20
: 이게 단순회귀분석을 컴퓨터 패키지라든지 아니면 데이터 분석 도구를 통해서 프로그램화되어 있는
02:29
: 그런 패키지의 도구들을 이용하게 되면 결과적으로 산출 해주는 게 바로 회귀분석의 분산분석표가 이렇게 나와 집니다.
02:39
: 그 표에 보시면은 f-통계량이라고 하는 척도 값이 나오거든요.
02:46
: 이 값을 가지고 회귀모형이, 추정한 회귀식이 통계적으로 유의한가 이걸 확인할 때 이용할 수 있는 겁니다.
03:00
: 그래서 보통 회귀분석의 검정에서는 회귀계수를 검정할 때는 이렇게 f-통계량을 통한 f검정도 할 수 있고요.
03:12
: 또 t검정도 할 수 있습니다. 여기서 t검정의 결과가 안 보이긴 합니다만
03:18
: 때에 따라서는 이렇게 t검정을 하는 것도 가능하다는 거. 그래서 f검정 하거나, t검정 하거나. 2가지 방법을 통해서
03:28
: 추정한 회귀계수 검정. 회귀계수의 검정을 통해서 추정했던 회귀식 자체가 타당한지에 대해서 검정하는 그런 과정입니다.
03:40
: 그럼 검정을 하기 위해서는 1절에서 가설검정의 절차 기억하십니까. 그거 한번 복기해 보시면요.
03:50
: 우선 회귀모형의 유의성을 검정하기 위해서 검정이라고 하는 단계에 들어가면 한 쌍의 가설을 만든다에서부터 출발을 하죠.
04:00
: 그 한 쌍의 가설이 여기에 나와 있습니다.
04:06
: 귀무가설은 독립변수가 종속변수에 영향을 미치는 것과 관련돼 있는, 즉 기울기와 관련되어 있는 회귀계수가
04:17
: 베타 원이었었죠. 그래서 베타 원이 제로다. 얘기는 무슨 말입니까.
04:22
: 독립변수가 종속변수에 어떠한 관계, 통계적인 관계도 없다. 즉 독립변수가 종속변수에 영향을 주지 못한다. 라는 것을
04:33
: 얘기하는 가설이 귀무가설로 들어가는 겁니다.
04:37
: 그리고 연구자는, 아니야 독립변수는 종속변수에 영향을 미쳐. 영향을 주는 게 맞아. 라고 하는 주장을 하고 싶겠죠.
04:46
: 그래서 그 연구자의 주장이 담긴 가설은 베타 원이 제로가 아니다. 라고, 얘기하는 것을 결국 어떤 의미를 가지고 있을까. 이 가설은
04:58
: x변수가 y변수에 영향을 준다. 라고 하는 것을 주장하고 있는 그 가설이
05:06
: 대립가설로 들어와 있는 겁니다. 그러면 한 쌍의 가설을 이렇게 만들죠.
05:11
: 한 쌍의 가설을 만들어 놓고, 그러고 난 다음에 두 번째 단계로 들어가는 것이 어떤 통계량을 통해서 이 귀무가설에 대해서
05:25
: 두 가설을 모두 다 통계적으로 검증할 필요가 없다고 했습니다. 하나만 검정을 하면
05:31
: 귀무가설이 참이냐, 거짓이냐만 검정하면 자동적으로 한 쌍의 대립가설은 참인지 거짓인지 바로 판정을 할 수 있겠지요.
05:40
: 그래서 통계적 검증을 했는데 이 귀무가설이 예를 들어서 TRUE. 참으로 이렇게 나타나면 당연히 대립가설은 뭐가 될까요.
05:52
: FALSE죠. 이건 사실이 아닌 게 되는 거고, 내 주장은 옳지 않은 게 되는 거고. 거꾸로
06:00
: 대부분의 연구자들이 하고자 하는 게 이 귀무가설을 어떻게 하고 싶겠어요.
06:05
: 이게 FALSE야. 이게 틀렸어. 라는 얘기를 하고 싶겠죠. 이게 틀려서 기각이되면 당연히 자동적으로 따로 분석을
06:16
: 안 해봐도, 검정을 안 해 봐도 내 주장이 담긴 대립가설이 사실인 것으로 accept 될 수 있는 겁니다.
06:28
: 받아들여지게 되는 그런 관계가 이 가설 검증의 관계이고요. 귀무가설이 사실인가, 아닌가를 판단하기 위해서
06:36
: 하는 검정 자체가 f-통계량을 통한 f검정을 실시를 하게 될 겁니다.
06:43
: f검정의 f-통계량을 산출하는 식은 여기에 나와 있죠.
06:48
: 그리고 이 식들이 어떤 과정을 통해서 계산돼서 나왔느냐 하는 것들이 분산분석표에
06:54
: 이렇게 친절하게 값들이 다 나옵니다.
06:59
: 자 그리고 여기까지 계산해서 f-통계량 값이 수치적으로 얼마 하는 것도 나와 있어요.
07:05
: 그러면 최종적으로 f-통계량은 귀무가설이 옳다는 전제하에서 계산돼 있는 통계량이기 때문에, 이 통계량을 가지고 귀무가설을
07:18
: 기각할 수 있는 영역. 그걸 유의수준 알파라고 했습니다.
07:23
: 그래서 유의수준 알파 이거는 귀무가설이 틀렸다. 라고, 얘기할 수 있는 그 확률을 유의수준 알파라고 얘기를 하는데요.
07:32
: 유의수준 알파로는 가장 많이 쓰는 것이 1% 그리고 5%, 10%의 유의수준에서 귀무가설의
07:48
: 귀무가설이 옳다라고 전제하에서 계산된 f-통계량 값을 비교하게 되는 겁니다.
07:57
: 그중에서 가장 가운데에 있는 5%를 가장 많이 쓰겠죠.
08:02
: 그래서 통계량 값이 뭐 보다 더 크면. 예를 들어서 유의수준 0.05% 이거보다 작으면
08:15
: 그러면 귀무가설을 틀렸다. 라고 할 수 있는 유의수준이라고 하는 것은 귀무가설을 기각시킬 수 있는 그 영역의 크기거든요.
08:25
: 그래서 이 0.05보다 f검정 통계량이 작으면 이 안에 포함된다는 뜻이기 때문에 이런 경우에는
08:33
: 귀무가설 h0를 reject. 틀렸다. 라고, 기각시킬 수 있게 되는 거고요.
08:42
: 만약에 검정통계량 값이 유의수준보다 더 크게 되는 경우에는 바로 기각역을 넘어서는 경우들
08:51
: 이거보다 더 크게 되면 기각역 안에 포함되지 않고 있는 상황이기 때문에, 그런 경우에는 h0를 기각할 수가 없죠.
09:01
: 그런 경우에는 귀무가설이 사실이다. 라고, 받아들일 수밖에 없는 그런 검정통계를 하는, 가설 검정을 하는
09:14
: 절차들이 회귀분석에서도 이렇게 진행을 하게 되는 겁니다.
20:00
:
02:02
~
03:30
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음