해시 태그
lADsP 완전 정복l 상관분석 nCYnT8Dyd7Y
00:05 : 공분산 같은 경우는 일단 두 변수가, 각각 다른 어떤 단위를 사용하고 있을 경우에는요.
00:15 : 변수 간의 어떤 선형관계를 파악하는 데 사실상 문제가 있습니다.
00:21 : 그래서 측정 단위의 따라서 크기가 바뀌지 않는, 그런 표준화된 공분산을 이용을 해야 되는데요.
00:30 : 그러려고 하면 상관계수라고 하는 것을 구해 볼 수 있습니다.
00:36 : 상관계수. correlation coefficient라는 건데, 이거는 아까 구했었던 공분산에 표준화시켰다고 생각하시면 돼요.
00:46 : 공분산에 각각의 변수를 표준편차로 나눠주면 표준화시키는 방법이거든요.
00:54 : 그래서 표준화된 공분산이 곧 상관계수라고 얘길 하는 거고요.
00:59 : 상관계수를 이용을 하게 되면 기본적으로 상관분석을 한다. 라고 얘기하면 산점도 그리고요.
01:07 : 그리고 상관계수를 구해보는 겁니다. 그러면 이 상관계수는 역시 공분산을 표준화시킨 것이기 때문에
01:15 : 상관계수의 값으로도 두 변수의 선형관계를 확인하실 수 있겠고요.
01:23 : 그리고 가장 대표적으로 상관계수를 구해 볼 수 있는데 특히 척도가 여기 보시는 것처럼 등간척도라든지
01:33 : 아니면 등간보다 더 상위의 척도가 뭐였습니까. 비율척도였죠. 그래서 구한 자료의 어떤 척도가
01:40 : 비율척도라든지, 등간척도 같은 경우에는 피어슨 상관계수라고 하는 것을 구하시면 되고요. 그다음에
01:48 : 수집한 자료가 서열척도로 측정된 자료들을 많이 수집하셨다고 한다면, 그때는 스피어만 상관계수라고 하는 방법으로
01:59 : 상관계수를 계산하시면 되는 겁니다. 얻어내시면 되는 거죠. 근데 이거는 일일이 어떤 공식을 따로따로 쓰실 필요는 없고 R이라든지
02:10 : SAS라든지 아니면 엑셀이라든지 이런데 수집한 자료만 입력하면 프로그램이 알아서 이건 어떤 척도를 썼으니까
02:19 : 어떤 상관계수를 구하면 되겠다. 이렇게도 나와 집니다.
02:23 : 여기에 일단 파악해야 되는 것은, 상관계수가 나왔을 때 특히 대표적으로는 이거 가지고 얘기하겠습니다.
02:30 : 피어슨 상관계수 같은 경우에는 보통 기호로 R로 쓰거든요. 근데 R이 가지는 값을 이런 값을 가져요.
02:39 : -1에서 1값을 가지게 되어 있습니다. 이걸 벗어나서 상관계수가 나왔다. 특히 피어슨 상관계수 값이 나왔단 얘기는
02:47 : 내가 뭔가 잘못했다고 하는 오류가 있구나. 라고, 파악하셔야 되고요.
02:52 : 이 상관계수 자체가 가지는 값을 해석하실 수 있어야 되겠죠.
02:57 : 그래서 상관계수가 양의 값을 가지면, 가운데를 중심으로 해서 이쪽 값을 가지게 되면 강한 데이터 간의
03:09 : 두 변수 간의 강한 양의 상관관계에 있음을 나타냅니다.
03:13 : 자 반대로 -1쪽으로 가까운데 상관계수 값이 나왔다고 한다면 수집한 두 변수의 데이터 간에는
03:24 : 아주 강한 음의 상관관계가 있다는 것을 의미하게 됩니다. 역시 마찬가지로 상관계수가, R의 값이 0인 경우가 있거든요.
03:32 : 그런 경우에는 아까 두 변수가 독립된, 서로 간의 아예 관계가 없는 것으로 해석을 하시면 돼요.
03:40 : 그래서 상관계수의 범위 가지고 파악할 수 있는 건 관계의 방향성을 파악할 수 있죠.
03:46 : 부호 자체만 가지고도 -냐 +냐 하는 방향성을 확인할 수 있었고요.
03:52 : 공분산 같은 경우에도 방향성을 부호로 확인한다고 했잖습니까.
03:57 : 그런데 이 상관계수 같은 경우에는 방향성뿐만 아니라. 강하다, 약하다라는 것을 나타낼 수 있습니다.
04:05 : 그래서 일반적으로 이거는 상관분석을 해야 되는 분야마다 조금 차이가 있기는 한데요.
04:13 : 보통 사회 과학 쪽, 경영이라든지 이런 쪽에서는 0.3정도 R이 +-0.3보다 작으면 이러면 보통 약하다. 라고 표현을 합니다.
04:25 : 그래서 관계가 있긴 있는데 약한 관계가 있는 거고요. 아까처럼 R이 0이면 전혀 통계적으로 관계가 없음을 얘기를 하는 것이었지 않습니까.
04:35 : 또, R이 어느 정도의 범위에서 0.3에서 0.6 정도까지 이 정도의 범위면 보통이라고 얘기합니다.
04:45 : 보통의 관계가 있네 이렇게 얘기를 하는 거고, R이 +- 0.7 이상쯤 되면요.
04:54 : 나름 강하다. 라고 얘기를 하는 거예요. 강한 관계가 있구나. 라고 해석을 하시면 됩니다.
05:00 : 그럴 때 방향성까지 같이 얘기를 하면, R이 예를 들어서 0.8이다. 나왔으면
05:09 : 이건 방향으로 봤을 때 positive 한. 양수죠. 그럴 땐 아주 강한 양의 상관관계가 있습니다. 이렇게 얘기하시면 되는 겁니다.
05:19 : 그래서 상관계수를 통해서 일반적으로 상관분석을 하게 되면 항상 상관계수를 구하게 된다.
05:28 : 이렇게 정리하시고 그 상관계수를 가지고 두 변수간의 선형관계 뿐만이 아니라 그 관계의 방향과 어느 정도 강함, 약함까지도
05:38 : 확인하실 수 있습니다. 그래서 산점도하고 상관계수 하고 한번 관계를 보시면요. 완전한 양의 상관관계가 된다는
05:47 : 여기 완전히라고 하는 얘기에 들어갔죠. 완전하다. 라는 것은 이렇게 점을 찍었을 때 완전하게
05:52 : 일직선상에 모든 점들이 다 나타나 있으면 완전히라고 붙이거든요. 그럼, 지금 같은 경우에 당연히 x가 증가할 때 y도 완전하게 같이 증가하는
06:04 : 모습 보이기 때문에 이렇게 산점도가 나타났다고 한다면 굳이 우리가 상관계수로 구하지 않아도 바로 상관계수 값이 얼마로
06:15 : 정확하게 나온다. 1로 나올 겁니다. 그리고 정말 일직선상으로 이렇게 점들이 줄을 섰다.
06:24 : x축은 증가하는데, y축은 완전히 감소하는 쪽으로 이런 식으로 일직선상으로 점이 나타나더라. 라고 하는 경우에는
06:35 : 역시 완전하고 negative한 상관관계에 있다고 얘기할 수 있는 거고요. 이때는 상관계수를 구해보면
06:44 : 정확하게 -1이라고 하는 값으로 나올 겁니다. 그리고 지금 그림에서 보시는 것처럼 완전히 어떠한 패턴도 읽어낼 수 없도록
06:55 : 무작위적으로 이렇게 막 찍혀서. 이것도 마찬가지죠 패턴이 있는 것 같지만 이런 패턴은 선형이다. 라고, 얘기할 수 있는
07:03 : 이런 건 아니기 때문에. 그래서 이렇게 나타나는 그런 어떤 부분에서는요. 무상관이라고 말씀드렸잖아요.
07:12 : 무상관일 때는 상관계수를 구해 보며 상관계수는 0이라고 나오는 겁니다.
07:20 : 그래서 두 변수 간은 서로 독립이고, 서로 아무런 통계적인 관계가 없음을 나타낼 때 이렇게 나타난다는 거죠.
07:27 : 그리고 0.8이라고 돼 있는 부분, -0.8 보세요. 아까 1하고 0.8 차이라고 얘기를 하면 모든 점들이
07:36 : 완전하게 직선상에, 일직선상에 놓이게 되면 완전하다. 라고 하는 얘기를 드리고. 그리고 +- 1로 가는 거지 않습니까.
07:44 : 그런데 대부분 이렇게 일직선상의 모든 데이터들이 다 이런 일직선상으로 나타날 수는 없거든요.
07:51 : 그러면 나름대로 이렇게 점이 막 찍힐 텐데, 이런 점들을 가지고 대략적으로 점들의 변동, 점들이 이렇게
08:01 : 가장 가운데에 흘러가는, 직선 하나 그렸을 때 이렇게 오차들은 있지만, 편차들은 나타나지만 대략적으로 자료들이
08:11 : 어떤 식으로 흩어져 있다. 라는 것은 읽어낼 수 있지 않습니까.
08:15 : 그래서 이 정도 이렇게 흩어져있는 경우에는 나름대로 강하다. 라고, 얘기할 수 있는 그런 상관계수 값이 나오겠네
08:22 : 역시 마찬가지로 정확하게 일직선을 아니지만 대략적으로 이렇게 negative한 방향으로
08:29 : 그리고 중심에서 일직선상 가운데 흘러가는, 일직선에서 크게 벗어나지 않은 변동을 보이고 있기 때문에
08:38 : 나름대로 이것도 negative하긴 하지만, 음의 관계이긴 하지만 강한 그런 관계를 가지고 있는
08:47 : 데이터라는 것을. 산점도뿐만 아니라 산점도와 그리고 통계적으로도 구하는
08:57 : 수치적인 척도인 상관계수를 이용해서도 비교해 보실 수 있습니다.
20:00 :
00:30 ~ 02:23
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 상관분석 nCYnT8Dyd7Y
00:05 : 공분산 같은 경우는 일단 두 변수가, 각각 다른 어떤 단위를 사용하고 있을 경우에는요.
00:15 : 변수 간의 어떤 선형관계를 파악하는 데 사실상 문제가 있습니다.
00:21 : 그래서 측정 단위의 따라서 크기가 바뀌지 않는, 그런 표준화된 공분산을 이용을 해야 되는데요.
00:30 : 그러려고 하면 상관계수라고 하는 것을 구해 볼 수 있습니다.
00:36 : 상관계수. correlation coefficient라는 건데, 이거는 아까 구했었던 공분산에 표준화시켰다고 생각하시면 돼요.
00:46 : 공분산에 각각의 변수를 표준편차로 나눠주면 표준화시키는 방법이거든요.
00:54 : 그래서 표준화된 공분산이 곧 상관계수라고 얘길 하는 거고요.
00:59 : 상관계수를 이용을 하게 되면 기본적으로 상관분석을 한다. 라고 얘기하면 산점도 그리고요.
01:07 : 그리고 상관계수를 구해보는 겁니다. 그러면 이 상관계수는 역시 공분산을 표준화시킨 것이기 때문에
01:15 : 상관계수의 값으로도 두 변수의 선형관계를 확인하실 수 있겠고요.
01:23 : 그리고 가장 대표적으로 상관계수를 구해 볼 수 있는데 특히 척도가 여기 보시는 것처럼 등간척도라든지
01:33 : 아니면 등간보다 더 상위의 척도가 뭐였습니까. 비율척도였죠. 그래서 구한 자료의 어떤 척도가
01:40 : 비율척도라든지, 등간척도 같은 경우에는 피어슨 상관계수라고 하는 것을 구하시면 되고요. 그다음에
01:48 : 수집한 자료가 서열척도로 측정된 자료들을 많이 수집하셨다고 한다면, 그때는 스피어만 상관계수라고 하는 방법으로
01:59 : 상관계수를 계산하시면 되는 겁니다. 얻어내시면 되는 거죠. 근데 이거는 일일이 어떤 공식을 따로따로 쓰실 필요는 없고 R이라든지
02:10 : SAS라든지 아니면 엑셀이라든지 이런데 수집한 자료만 입력하면 프로그램이 알아서 이건 어떤 척도를 썼으니까
02:19 : 어떤 상관계수를 구하면 되겠다. 이렇게도 나와 집니다.
02:23 : 여기에 일단 파악해야 되는 것은, 상관계수가 나왔을 때 특히 대표적으로는 이거 가지고 얘기하겠습니다.
02:30 : 피어슨 상관계수 같은 경우에는 보통 기호로 R로 쓰거든요. 근데 R이 가지는 값을 이런 값을 가져요.
02:39 : -1에서 1값을 가지게 되어 있습니다. 이걸 벗어나서 상관계수가 나왔다. 특히 피어슨 상관계수 값이 나왔단 얘기는
02:47 : 내가 뭔가 잘못했다고 하는 오류가 있구나. 라고, 파악하셔야 되고요.
02:52 : 이 상관계수 자체가 가지는 값을 해석하실 수 있어야 되겠죠.
02:57 : 그래서 상관계수가 양의 값을 가지면, 가운데를 중심으로 해서 이쪽 값을 가지게 되면 강한 데이터 간의
03:09 : 두 변수 간의 강한 양의 상관관계에 있음을 나타냅니다.
03:13 : 자 반대로 -1쪽으로 가까운데 상관계수 값이 나왔다고 한다면 수집한 두 변수의 데이터 간에는
03:24 : 아주 강한 음의 상관관계가 있다는 것을 의미하게 됩니다. 역시 마찬가지로 상관계수가, R의 값이 0인 경우가 있거든요.
03:32 : 그런 경우에는 아까 두 변수가 독립된, 서로 간의 아예 관계가 없는 것으로 해석을 하시면 돼요.
03:40 : 그래서 상관계수의 범위 가지고 파악할 수 있는 건 관계의 방향성을 파악할 수 있죠.
03:46 : 부호 자체만 가지고도 -냐 +냐 하는 방향성을 확인할 수 있었고요.
03:52 : 공분산 같은 경우에도 방향성을 부호로 확인한다고 했잖습니까.
03:57 : 그런데 이 상관계수 같은 경우에는 방향성뿐만 아니라. 강하다, 약하다라는 것을 나타낼 수 있습니다.
04:05 : 그래서 일반적으로 이거는 상관분석을 해야 되는 분야마다 조금 차이가 있기는 한데요.
04:13 : 보통 사회 과학 쪽, 경영이라든지 이런 쪽에서는 0.3정도 R이 +-0.3보다 작으면 이러면 보통 약하다. 라고 표현을 합니다.
04:25 : 그래서 관계가 있긴 있는데 약한 관계가 있는 거고요. 아까처럼 R이 0이면 전혀 통계적으로 관계가 없음을 얘기를 하는 것이었지 않습니까.
04:35 : 또, R이 어느 정도의 범위에서 0.3에서 0.6 정도까지 이 정도의 범위면 보통이라고 얘기합니다.
04:45 : 보통의 관계가 있네 이렇게 얘기를 하는 거고, R이 +- 0.7 이상쯤 되면요.
04:54 : 나름 강하다. 라고 얘기를 하는 거예요. 강한 관계가 있구나. 라고 해석을 하시면 됩니다.
05:00 : 그럴 때 방향성까지 같이 얘기를 하면, R이 예를 들어서 0.8이다. 나왔으면
05:09 : 이건 방향으로 봤을 때 positive 한. 양수죠. 그럴 땐 아주 강한 양의 상관관계가 있습니다. 이렇게 얘기하시면 되는 겁니다.
05:19 : 그래서 상관계수를 통해서 일반적으로 상관분석을 하게 되면 항상 상관계수를 구하게 된다.
05:28 : 이렇게 정리하시고 그 상관계수를 가지고 두 변수간의 선형관계 뿐만이 아니라 그 관계의 방향과 어느 정도 강함, 약함까지도
05:38 : 확인하실 수 있습니다. 그래서 산점도하고 상관계수 하고 한번 관계를 보시면요. 완전한 양의 상관관계가 된다는
05:47 : 여기 완전히라고 하는 얘기에 들어갔죠. 완전하다. 라는 것은 이렇게 점을 찍었을 때 완전하게
05:52 : 일직선상에 모든 점들이 다 나타나 있으면 완전히라고 붙이거든요. 그럼, 지금 같은 경우에 당연히 x가 증가할 때 y도 완전하게 같이 증가하는
06:04 : 모습 보이기 때문에 이렇게 산점도가 나타났다고 한다면 굳이 우리가 상관계수로 구하지 않아도 바로 상관계수 값이 얼마로
06:15 : 정확하게 나온다. 1로 나올 겁니다. 그리고 정말 일직선상으로 이렇게 점들이 줄을 섰다.
06:24 : x축은 증가하는데, y축은 완전히 감소하는 쪽으로 이런 식으로 일직선상으로 점이 나타나더라. 라고 하는 경우에는
06:35 : 역시 완전하고 negative한 상관관계에 있다고 얘기할 수 있는 거고요. 이때는 상관계수를 구해보면
06:44 : 정확하게 -1이라고 하는 값으로 나올 겁니다. 그리고 지금 그림에서 보시는 것처럼 완전히 어떠한 패턴도 읽어낼 수 없도록
06:55 : 무작위적으로 이렇게 막 찍혀서. 이것도 마찬가지죠 패턴이 있는 것 같지만 이런 패턴은 선형이다. 라고, 얘기할 수 있는
07:03 : 이런 건 아니기 때문에. 그래서 이렇게 나타나는 그런 어떤 부분에서는요. 무상관이라고 말씀드렸잖아요.
07:12 : 무상관일 때는 상관계수를 구해 보며 상관계수는 0이라고 나오는 겁니다.
07:20 : 그래서 두 변수 간은 서로 독립이고, 서로 아무런 통계적인 관계가 없음을 나타낼 때 이렇게 나타난다는 거죠.
07:27 : 그리고 0.8이라고 돼 있는 부분, -0.8 보세요. 아까 1하고 0.8 차이라고 얘기를 하면 모든 점들이
07:36 : 완전하게 직선상에, 일직선상에 놓이게 되면 완전하다. 라고 하는 얘기를 드리고. 그리고 +- 1로 가는 거지 않습니까.
07:44 : 그런데 대부분 이렇게 일직선상의 모든 데이터들이 다 이런 일직선상으로 나타날 수는 없거든요.
07:51 : 그러면 나름대로 이렇게 점이 막 찍힐 텐데, 이런 점들을 가지고 대략적으로 점들의 변동, 점들이 이렇게
08:01 : 가장 가운데에 흘러가는, 직선 하나 그렸을 때 이렇게 오차들은 있지만, 편차들은 나타나지만 대략적으로 자료들이
08:11 : 어떤 식으로 흩어져 있다. 라는 것은 읽어낼 수 있지 않습니까.
08:15 : 그래서 이 정도 이렇게 흩어져있는 경우에는 나름대로 강하다. 라고, 얘기할 수 있는 그런 상관계수 값이 나오겠네
08:22 : 역시 마찬가지로 정확하게 일직선을 아니지만 대략적으로 이렇게 negative한 방향으로
08:29 : 그리고 중심에서 일직선상 가운데 흘러가는, 일직선에서 크게 벗어나지 않은 변동을 보이고 있기 때문에
08:38 : 나름대로 이것도 negative하긴 하지만, 음의 관계이긴 하지만 강한 그런 관계를 가지고 있는
08:47 : 데이터라는 것을. 산점도뿐만 아니라 산점도와 그리고 통계적으로도 구하는
08:57 : 수치적인 척도인 상관계수를 이용해서도 비교해 보실 수 있습니다.
20:00 :
01:48 ~ 03:46
1
2
3
검수 상태 : 불통
통과
불통
최종불통
lADsP 완전 정복l 종속변수 / 독립변수 / 산점도 / 공분산 1nfiitxe5Xw
00:05 : 현실에서 일어나는 다양한 사회 현상들은 알고 보면 서로 간의 특정한 어떤 관계를 맺고 있는 경우가 많고요.
00:16 : 그리고 특히 탐색적인 자료 분석에서는 각각의 데이터 간의 이러한 관계가 어떠한 관계가 있는지를 발견을 해서요.
00:28 : 그 관계를 매개로 해서, 더 상위 개념을 발견하는 것이 탐색적 자료 분석의 핵심이 되는 겁니다.
00:37 : 그리고 이 탐색의 대상은 크게 상관관계를 본다든지, 아니면 인과관계를 본다든지 이런 것들을 할 수 있는데
00:45 : 특히 인과관계라고 하는 거는 원인과 결과의 관계를 얘기를 하는 거죠.
00:50 : 상관관계도 마찬가지로 서로 간이라고 했으니까, 관계를 나타내는 2개의 변수가 필요하다는 건 아실 겁니다.
01:00 : 그래서 보통 얘기할 때 영향을 주는 변수.
01:05 : 특히 인과관계에서는 영향을 주는 변수가 있고 영향을 받는 변수 이렇게 양쪽으로 변수들이 존재를 하겠죠.
01:12 : 물론 상관분석을 할 때는 두 변수 간의 x, y로 구분은 하지만, 그때는 그냥 독립변수 종속변수 이렇게 부르는 것이 아니고
01:23 : x변수, y변수 이렇게 2개의 관계를 보는 거고요. 여기서 독립이다. 종속이다. 라고 하는 이름 붙이는 거는
01:29 : 어떤 인과관계를 보려고 할 때는 이런 용어로 변수의 이름을 얘기할 수 있습니다.
01:37 : 어찌 됐든 이런 인과관계는, 특히 상관관계 중에서도 명확하게 원인, 결과 이런 시간적인 선, 후를 파악된 경우에 살펴볼 수 있기 때문에
01:48 : 어떤 걸 더 먼저 하느냐면 상관이라고 하는 상관관계가 더 우선 합니다. 일단 변수 간의 관계가 있는지를 먼저 보겠다는 거죠.
02:00 : 그리고 그 관계가 시간적인 어떤 차이에 의해서 어떤 게 더 선후관계에 의해서 어떤게, 어디에 영향을 주는지 하는
02:09 : 인과관계를 보는 게 맞다는 얘기입니다.
02:13 : 특히 상관분석 correlation analysis라고 얘기하는데요.
02:17 : 상관분석 같은 경우에는 이 변수들 간의 연관성을 파악하기 위해서 변수 간의 선형관계 정도를 분석하는
02:27 : 통계 기법을 얘기하는데 일단 산점도라고 하는 것을 그려 내실 수 있습니다.
02:31 : scatter plot이라고 했으니까 그래프겠구나. 라고 생각하실 수 있겠죠.
02:36 : 그래서 산점도는 시각적으로 상관관계 변수들 간의 관계를 시각적으로 살펴볼 수 있도록 하는 것인데
02:44 : 2차 평면 위에 x, y로 나타내는 2차 평면 위에, 모든 2개의 변수 x가 가지는 변숫값이 있을 것이고, y가 가지는 변숫값이 있겠죠.
02:56 : 그 한 쌍으로 이렇게 점을 찍어서 그래서 이 관계를 전반적으로 이렇게 어떻게
03:04 : 나타나는지를 확인할 수 있는 그런 그래프가 바로 산점도입니다.
03:09 : 그래서 인과관계도 마찬가지이지만 특히 상관관계를 보려고 할 때는 일차적으로 그려내는 것이 산점도를 그려 낸다. 라고 생각하시면 되겠고요.
03:21 : 산점도 같은 경우에도 파악할 수 있는, 삼점도에서 1차적으로 확인할 수 있는 건 두 변수 간의 관계입니다.
03:31 : 그 관계가 선형관계있는 선형관계에 있단는 건 바로 이거죠.
03:38 : 이렇게 하는 이게 바로 선형관계입니다. 때에 따라서는 이렇게 나타날 수도 있고, 이렇게 나타날 수도 있겠지요.
03:45 : 그래서 두 변수 사이에 직선의 관계가 나타나는지를 보는 겁니다 직선의 관계가 선형관계라고 얘기를 하는데
03:53 : 선형관계들은 주로 많이 얘기하는 게, 이렇게 오른쪽으로 증가한 관계인지, 아니면 오른쪽으로 이렇게 내려오는 관계인지
04:03 : 왼쪽 내려오는 게 아니라 오른쪽 이렇게 내려오는 관계인지를 확인을 많이 합니다.
04:10 : 그리고 두 변수 간의 선형관계가 아니라 함수관계가 있는지 보는 겁니다. 함수관계는 주로 직선도 있지만
04:20 : 이렇게 곡선으로 또 나타나는 경우들도 있거든요. 그래서 이런 다양한 변수들 간의 관계를 보려고 할 때
04:30 : 산점도는 이 관계를 확인해 볼 수 있고요. 지금 같은 경우에 그 관계를 간단하게만 보시면, 이것 같은 경우에는
04:37 : x값이 증가할 때, y값도 같이 증가를 하죠. 자 이런 경우에는 양의 상관관계가 있다고 얘기하는 겁니다.
04:45 : 서로 증가하고, 증가할 때 같이 이렇게 증가한 겁니다. 그런데 두 번째 같은 경우에는 x는 증가하는데, y는 반대로 감소를 하쵸 그런 경우에는
04:56 : negative 상관관계. 음의 상관관계가 있다고 얘기하고요.
05:00 : 이것도 선형은 아니지만 양의 상관관계. 음의 상관관계라고 확인할 수 있겠죠. 그런데 이런 경우 한번 보세요.
05:10 : 이것 같은 경우에는 일정한 관계를 선형이다 함수다. 라고 하는 관계를 찾아내기가 힘들죠.
05:17 : 이것도 역시 마찬가지고요.
05:19 : 그래서 이런 경우에는 완전히 두 변수 간의 상관이 없음을, 특히 산점도를 통해서 시각적 확인해 볼 수 있습니다.
05:28 : 그리고 이상값이 존재하는지를 보실 수 있습니다. 대부분은 이렇게 어느 정도의 패턴을 보이고 있는데, 느닷없이 여기에 찍혀 있다든지
05:37 : 아니면 여기떨어진 자료이기 때문에 이런 건 보통 이상치가 존재하는구나 하는 것을 데이터에서 확인할 수 있고요.
05:57 : 그리고 집단이 구분되는 것도 확인할 수 있습니다. 예를 들어서 여기에도 점이 이렇게 좀 지키고 그리고 여기에도
06:08 : 이렇게 점에 찍혔다. 라고 한다면 이쪽의 특성과, 이쪽의 특성과 데이터의 특성 간에는 차이가 있음을 확인할 수 있었으니까.
06:17 : 집단을 2개 정도 이렇게 나눠볼 수 있다는 겁니다. 그래서 산점도를 통해서는 이런 부분들을 확인할 수 있습니다.
06:26 : 두 변수에 분포를 동시에 고려해서 변수 사이의 어떤 연관성을 분석하려고 할 때 쓰는 척도의 대해서 한번 보도록 하겠습니다.
06:36 : 이 경우에는 두 변수에 공통된 분포를 나타내는 분산. 두 변수의 분포를 동시에 고려해야 된다. 그랬었죠.
06:45 : 그러면 두 변수의 공통된 분포를 나타내는 분산이 있습니다. 그 분산을 covariance. 공분산이라고 얘기를 하는 거거든요.
06:56 : 그래서 이 공분산을 이용하게 되면 두 개의 변숫값을 갖는, 개별 관측치들이 각 평균으로부터 각각의 평균으로부터
07:09 : 얼마나, 떨어져 있는지를 나타내는 지표이기 때문에 산점도뿐만 아니라 공분산을 통해서 두 분포를
07:21 : 동시에 고려할 때는, 서로 간에 표준화시킬 부분이 필요합니다.
07:26 : 왜냐하면 두 분포 간에는 기본적으로 분산이 조금 다르기 때문에, 이걸 조금 표준화시킨다고 하는 측면에서
07:36 : 공분산이라고 하는 이 지표를 이용하실 수 있겠고요. 이거 가지고는 두 변수 사이의
07:43 : 선형관계를 또 대표적으로 수치로 측정하는 그런 모수라고 보시면 될 겁니다.
07:51 : 공분산은 이 공식을 통해서 cov x,v 이렇게 해서 아까 두 개의 평균을 이용한다. 말씀드렸죠.
07:58 : 두 분포를 각각의 이 분포를 나타내는 거예요. 평균을 이용한다. 말씀드렸고요.
08:05 : 이것 같은 경우에는 일단 공분산을 계산을 이 공식에 의해서 계산을 하게 되면 숫자 값이 나올 거예요. 숫자 값이 나오는데
08:15 : 공분산은 기본적으로 부호를 가지고 판단하실 수 있습니다. 그래서 부호가 변수 간의 어떤 방향성을 확인할 수 있도록 해주는데요.
08:27 : 일단 공분산이 0보다 크다. 즉 양수로 이렇게 나오게 되면 두 변수는 양의 선형관계가 있음을 알 수 있습니다.
08:39 : +쪽으로. 아까 양에서 선형관계라고 하면은 뭔지를 모르겠지만 공분산 값이
08:45 : 플러스면 이렇게 나타나 있는 것으로 확인할 수 있고요. 공분산 값이 마이너스로, 음수로 이렇게 나타나 있으면 역시 상관관계 방향은
08:56 : 반대로 아까 negative처럼 이렇게 증가하면, 감소하는 쪽으로 이렇게 두 개의 변수에 방향이 있겠구나. 하는 걸
09:08 : 확인할 수 있습니다. 그리고 마찬가지로 공분산 값이 0이 될 수도 있거든요. 공분산이 0이 될 수도 있는데 0이 된다는 얘기는
09:18 : 두 변수 사이의 서로 독립이기 때문에 변수 사이는 어떠한 선형관계도 존재하지 않고요.
09:25 : 특히 두 변수가 이렇게 독립일 때는 cov값이 0이 이렇게 나타나게 되겠습니다. 그러니까 이것은
09:32 : 두 변수 간에, 아무런 관계가 없다. 라고 여러분들 해석하실 수 있는 부분들이 되겠죠.
20:00 :
04:10 ~ 06:10
1
2
3
검수 상태 : 불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 : 추가