남은 문제 : 36
문제 1262
Wage 데이터셋에 대한 아래 요약통계량에 대한 설명으로 가장 부적절한 것은 무엇인가?
보기
1.wage의 최소값은 20.09 이다.
2.교육수준의 5개의 그룹으로 구분된다.
3.wage는 범주형 변수이다.
4.education은 순서형 변수이다.
정답
3
해시
태그
lADsP 완전 정복l 기술통계_2
4yR1Uq_tRn8
00:05
: 자료를 숫자로 요약하는 통계량에 의해서 자료를 요약하고 정리하는 기술통계에 대한
00:12
: 얘기들을 구체적으로 조금 더 해보겠습니다.
00:15
: 통계량에 의한 자료를 요약한다는 것은 자료의 분포를 이해하기 위해서 3가지의 특성을 처리하는 방법입니다.
00:26
: 첫 번째가 중심 경향에 특성이죠. 여기서는 중심 위치라고 했는데
00:33
: 전체 자료의 분포가 중심이 어디에 있는지를 알아보려고 하는 목적을 가지고 있습니다.
00:41
: 그리고 또 하나는 전체적인 분포에서 중심이 어디에 있는지를 파악을 했다면
00:47
: 중심에서 전체 자료가 어떻게 퍼져 있는지, 흩어져있는 정도를 얘기하는 산포라고 하는 이 특성도
00:56
: 역시 통계량을 통해서 알아볼 수 있고요. 그리고 흩어져 있는 정도가 한쪽으로 몰려 있는지
01:06
: 어느 쪽으로 치우쳐져 있는지, 대칭인지, 어느 쪽으로 치우쳐져 있는지를 알아볼 수 있는 통계량도 있습니다.
01:16
: 그래서 대칭 정도를 나타내는 통계량. 이런 3가지 특성을 바로 기술통계. 특히 통계량을 통해서
01:24
: 숫자로 확인할 수 있게 되는 겁니다.
01:27
: 먼저 살펴볼 것은 중심경향. 전체적으로 주어져 있는 자료의 분포에서 중심이 어느 정도
01:40
: 어디에 있는지를 알려주려고 하는 목적에서 특히 숫자로 중심의 위치를 알려주는 것이기 때문에
01:48
: 중심에 대한 정확한 특성을 파악할 수 있는 그런 방법이라고 보시면 되겠고요.
01:54
: 대표적으로 3가지 방법을 씁니다.
01:57
: 전체 자료 분포의 중심이 어디 있는지를 알아보기 위해서 표본평균. 평균이라고 하는 걸 쓰고요.
02:02
: 그리고 두 번째 중앙값이라고 하는 걸 쓰고 여기는 나타나 있지 않지만, 세 번째로 쓰는 값이 최빈값이라고 하는 것을 씁니다. 최빈값.
02:11
: 평균은 mean이라고 하는 용어를 한번 봐주시고요. 중앙값은 median이라고 합니다. 그리고 최빈값은 mode라고 합니다.
02:26
: 그래서 이 세 가지의 통계량들을 이용을 하시면 전체 자료가 아무리 많다 하더라도 그 자료가
02:35
: 그 전체 자료가 어느 정도의 분포에서 중심이 어디에 있는지를 쉽게 확인하실 수 있겠죠.
02:43
: 평균을 구하는 방법은 다 아실 거고. 특히 여기에서 평균을 구하는 방법은 산술 평균을 하는 방법입니다.
02:50
: 전체에 주어진 자룟값들을, 관측값들을 다 더한 다음에 n으로 나누어 주는 거.
02:57
: 그리고 두 번째가 중앙값이라고 하는 것을 볼 수 있는데 중앙값은 자료의 크기 순서대로 일단 정렬을 먼저 시키죠.
03:04
: 관측된 자료를 크기 순서대로 정렬을 시킨 다음에 거기서 가장 중앙에 위치하는 그 관측값을 가지고
03:14
: 전체 분포에, 자료 분포에 중심이 바로 여기에 있다. 라고 확인 할 수 있는 방법이 바로 median. 중앙값이 될 겁니다 .
03:24
: 그런데 중앙값 같은 경우에는 홀수인 경우에는 찾기가 쉽죠. 홀수인 경우에는 가운데 있는 게 하나의 값으로 나타나겠지만.
03:32
: 짝수인 경우에는 가장 가까운 2가지의 값을, 가장 중심에 있는 2개의 값을 더해서 역시 산술 평균 해주시면
03:43
: 중앙값으로 보실 수 있겠습니다.
03:45
: 여기에 보면 하나의 자료가 있습니다. 직원들이 학교에 출근 소요 시간.
03:54
: 여기에 많은 시간들이, 15명 직원들에 대한 출근이 나와 있는데 그걸 가지고
03:59
: 표본 평균, 중앙값 이렇게 구하는 거. 연습 삼아서 나와 있으니까 한번 해보시면 되고요.
04:05
: 그리고 여기에 최빈값이라고 말씀드렸는데 최빈값 같은 경우에는 여기서도 최빈값을 구할 수 있습니다.
04:13
: 15개의 출근 시간대에 대한 자료 중에서 최빈값이라고 하는 것은 제일 반복되는 데이터. 가장 자주
04:22
: 반복적으로 나타나는 데이터를 전체 자료에 중심으로 삼겠다. 라고 하는 겁니다. 그래서 결론적으로 말씀드리면.
04:30
: 평균 같은 경우에는 수치적인 자료. 이런 수치 자료가 나왔을 때 평균을 구하는 것은 어렵지 않습니다.
04:39
: 쉽게 구하실 수 있고요.
04:42
: 그리고 두 번째 중앙값 같은 경우에도 수치 자료이기 때문에 줄 세워서 정렬을 시킨 다음에
04:51
: 가운데가 뭐가 있는지를 찾는 것은 어렵지 않습니다.
04:54
: 그런데 최빈값 같은 경우에는요.
04:57
: 이런 수치형 자료뿐만이 아니라 범주형 자료라고 했던 몇 학년입니까. 라고 물었을 때 또는
05:05
: 당신은 어디에 거주 하십니까. 라고 물었을 때 사람들마다 부산에 거주합니다, 서울입니다, 대구입니다. 이렇게 얘기할 때
05:13
: 그런 자료들은 수치형 자료가 아니라, 다 범주형 자료. 질적 자료라고 말씀드렸죠.
05:19
: 그런 질적 자료에 있어서도 가장 사람들이 반복적으로 많이 응답한, 관측값들을 최빈값으로 뽑아낼 수 있는 것이기 때문에
05:28
: 그래서 최빈값 같은 경우에는 중심을 나타내는 최빈값 같은 경우에는 자료의 종류에 상관없이
05:38
: 연속형 자료가 됐든, 이산형 자료가 됐든. 아니면 질적 자료가 됐든 자료의 종류가 상관없이
05:46
: 중심을 구할 수 있는 방법이라고 보시면 됩니다.
05:49
: 하지만, 이 3가지 중에서 통계학에서 그래도 중앙값 같은 경우에는 식을 쓴다고 얘기하기 어렵죠.
05:59
: 최빈값 같은 경우도 반복되는, 가장 자주 반복되는 것을 선택하는 방법이기 때문에 이거는 과학적이고 객관적인 방법이라고 얘기하기는 조금 그렇습니다.
06:10
: 그래서 통계학에서 중심을 측정할 때 객관적이고 과학적인 방법으로 자료의 중심을 얘기하는 측정하는
06:20
: 그런 통계량으로서 평균. mean이라고 하는 평균을 보통 많이 사용을 하고 있습니다.
06:26
: 그리고 이 3가지의 통계량을 가지고 값들의 크기를 가지고 비교를 해보면요. 통계량의 값.
06:35
: 통계량 값을 가지고 비교를 해보면 여기 한번 보시죠.
06:41
: 최빈값과 중앙값과 평균. 이 3개가 같다. 라고 하는 경우가 있습니다. 예를 들어서 같다. 라고 하면 이것은
06:49
: 자료를 전반적으로 다 조사하지 않아도 이 3개의 값이 같으면 수집한 자료는 중심은 모두 같죠. 그리고 좌우가 정확하게
07:01
: 대칭인 모양을 띠게 됩니다.
07:05
: 그래서 중심을 기준으로 해서 작은 값, 큰 값이 전부 다 이렇게 대칭적으로 자료가 수집되어 있다. 라는 것을 알 수 있다는 거죠.
07:14
: 그리고 이번에는 평균이 중앙값하고 비교를 했을 때, 평균이 중앙값보다 이렇게 작은 경우가 있습니다.
07:23
: 평균이 여기 있고, 중앙값은 여기 있지 않습니까. 그런 경우에는 대부분의 자료들이 어디에 많이 몰려있냐면.
07:31
: 오른쪽으로 많이 몰려 있다. 라는 것을 의미하는 겁니다.
07:36
: 오른쪽으로 많이 몰려 있기 때문에 자동적으로, 왼쪽으로 이렇게 꼬리가 긴 그런 자료의 분포가 나타나게 되는 거죠.
07:44
: 근데 반대로 평균이 뭐 보다 더 큰 경우도 있다. 중앙값보다 평균이 더 큰 경우가 있습니다.
07:51
: 그럼, 대부분의 자료들은요. 왼쪽에 이렇게 많이 몰려 있습니다.
07:56
: 그러면 상대적으로 분포의 꼬리는 오른쪽에 긴 경우가 나타나겠죠.
08:03
: 그래서 평균이다, 중앙값이다, 최빈값이다. 이런 통계량들만. 중심을 구하는 통계량들만 구해 놓아도 전체적으로
08:13
: 굳이 비대칭도라든지 그런 것들을 확인하지 않아도, 이 3가지 특히 평균과 중앙값에 크기만 가지고도 전체 데이터가
08:24
: 대칭적인지 아니면 어느 쪽으로 자료들이 몰려 있는지 같은 것들을 쉽게 확인할 수 있게 되는 겁니다.
20:00
:
00:05
: 자료를 숫자로 요약하는 통계량에 의해서 자료를 요약하고 정리하는 기술통계에 대한
00:12
: 얘기들을 구체적으로 조금 더 해보겠습니다.
00:15
: 통계량에 의한 자료를 요약한다는 것은 자료의 분포를 이해하기 위해서 3가지의 특성을 처리하는 방법입니다.
00:26
: 첫 번째가 중심 경향에 특성이죠. 여기서는 중심 위치라고 했는데
00:33
: 전체 자료의 분포가 중심이 어디에 있는지를 알아보려고 하는 목적을 가지고 있습니다.
00:41
: 그리고 또 하나는 전체적인 분포에서 중심이 어디에 있는지를 파악을 했다면
00:47
: 중심에서 전체 자료가 어떻게 퍼져 있는지, 흩어져있는 정도를 얘기하는 산포라고 하는 이 특성도
00:56
: 역시 통계량을 통해서 알아볼 수 있고요. 그리고 흩어져 있는 정도가 한쪽으로 몰려 있는지
01:06
: 어느 쪽으로 치우쳐져 있는지, 대칭인지, 어느 쪽으로 치우쳐져 있는지를 알아볼 수 있는 통계량도 있습니다.
01:16
: 그래서 대칭 정도를 나타내는 통계량. 이런 3가지 특성을 바로 기술통계. 특히 통계량을 통해서
01:24
: 숫자로 확인할 수 있게 되는 겁니다.
01:27
: 먼저 살펴볼 것은 중심경향. 전체적으로 주어져 있는 자료의 분포에서 중심이 어느 정도
01:40
: 어디에 있는지를 알려주려고 하는 목적에서 특히 숫자로 중심의 위치를 알려주는 것이기 때문에
01:48
: 중심에 대한 정확한 특성을 파악할 수 있는 그런 방법이라고 보시면 되겠고요.
01:54
: 대표적으로 3가지 방법을 씁니다.
01:57
: 전체 자료 분포의 중심이 어디 있는지를 알아보기 위해서 표본평균. 평균이라고 하는 걸 쓰고요.
02:02
: 그리고 두 번째 중앙값이라고 하는 걸 쓰고 여기는 나타나 있지 않지만, 세 번째로 쓰는 값이 최빈값이라고 하는 것을 씁니다. 최빈값.
02:11
: 평균은 mean이라고 하는 용어를 한번 봐주시고요. 중앙값은 median이라고 합니다. 그리고 최빈값은 mode라고 합니다.
02:26
: 그래서 이 세 가지의 통계량들을 이용을 하시면 전체 자료가 아무리 많다 하더라도 그 자료가
02:35
: 그 전체 자료가 어느 정도의 분포에서 중심이 어디에 있는지를 쉽게 확인하실 수 있겠죠.
02:43
: 평균을 구하는 방법은 다 아실 거고. 특히 여기에서 평균을 구하는 방법은 산술 평균을 하는 방법입니다.
02:50
: 전체에 주어진 자룟값들을, 관측값들을 다 더한 다음에 n으로 나누어 주는 거.
02:57
: 그리고 두 번째가 중앙값이라고 하는 것을 볼 수 있는데 중앙값은 자료의 크기 순서대로 일단 정렬을 먼저 시키죠.
03:04
: 관측된 자료를 크기 순서대로 정렬을 시킨 다음에 거기서 가장 중앙에 위치하는 그 관측값을 가지고
03:14
: 전체 분포에, 자료 분포에 중심이 바로 여기에 있다. 라고 확인 할 수 있는 방법이 바로 median. 중앙값이 될 겁니다 .
03:24
: 그런데 중앙값 같은 경우에는 홀수인 경우에는 찾기가 쉽죠. 홀수인 경우에는 가운데 있는 게 하나의 값으로 나타나겠지만.
03:32
: 짝수인 경우에는 가장 가까운 2가지의 값을, 가장 중심에 있는 2개의 값을 더해서 역시 산술 평균 해주시면
03:43
: 중앙값으로 보실 수 있겠습니다.
03:45
: 여기에 보면 하나의 자료가 있습니다. 직원들이 학교에 출근 소요 시간.
03:54
: 여기에 많은 시간들이, 15명 직원들에 대한 출근이 나와 있는데 그걸 가지고
03:59
: 표본 평균, 중앙값 이렇게 구하는 거. 연습 삼아서 나와 있으니까 한번 해보시면 되고요.
04:05
: 그리고 여기에 최빈값이라고 말씀드렸는데 최빈값 같은 경우에는 여기서도 최빈값을 구할 수 있습니다.
04:13
: 15개의 출근 시간대에 대한 자료 중에서 최빈값이라고 하는 것은 제일 반복되는 데이터. 가장 자주
04:22
: 반복적으로 나타나는 데이터를 전체 자료에 중심으로 삼겠다. 라고 하는 겁니다. 그래서 결론적으로 말씀드리면.
04:30
: 평균 같은 경우에는 수치적인 자료. 이런 수치 자료가 나왔을 때 평균을 구하는 것은 어렵지 않습니다.
04:39
: 쉽게 구하실 수 있고요.
04:42
: 그리고 두 번째 중앙값 같은 경우에도 수치 자료이기 때문에 줄 세워서 정렬을 시킨 다음에
04:51
: 가운데가 뭐가 있는지를 찾는 것은 어렵지 않습니다.
04:54
: 그런데 최빈값 같은 경우에는요.
04:57
: 이런 수치형 자료뿐만이 아니라 범주형 자료라고 했던 몇 학년입니까. 라고 물었을 때 또는
05:05
: 당신은 어디에 거주 하십니까. 라고 물었을 때 사람들마다 부산에 거주합니다, 서울입니다, 대구입니다. 이렇게 얘기할 때
05:13
: 그런 자료들은 수치형 자료가 아니라, 다 범주형 자료. 질적 자료라고 말씀드렸죠.
05:19
: 그런 질적 자료에 있어서도 가장 사람들이 반복적으로 많이 응답한, 관측값들을 최빈값으로 뽑아낼 수 있는 것이기 때문에
05:28
: 그래서 최빈값 같은 경우에는 중심을 나타내는 최빈값 같은 경우에는 자료의 종류에 상관없이
05:38
: 연속형 자료가 됐든, 이산형 자료가 됐든. 아니면 질적 자료가 됐든 자료의 종류가 상관없이
05:46
: 중심을 구할 수 있는 방법이라고 보시면 됩니다.
05:49
: 하지만, 이 3가지 중에서 통계학에서 그래도 중앙값 같은 경우에는 식을 쓴다고 얘기하기 어렵죠.
05:59
: 최빈값 같은 경우도 반복되는, 가장 자주 반복되는 것을 선택하는 방법이기 때문에 이거는 과학적이고 객관적인 방법이라고 얘기하기는 조금 그렇습니다.
06:10
: 그래서 통계학에서 중심을 측정할 때 객관적이고 과학적인 방법으로 자료의 중심을 얘기하는 측정하는
06:20
: 그런 통계량으로서 평균. mean이라고 하는 평균을 보통 많이 사용을 하고 있습니다.
06:26
: 그리고 이 3가지의 통계량을 가지고 값들의 크기를 가지고 비교를 해보면요. 통계량의 값.
06:35
: 통계량 값을 가지고 비교를 해보면 여기 한번 보시죠.
06:41
: 최빈값과 중앙값과 평균. 이 3개가 같다. 라고 하는 경우가 있습니다. 예를 들어서 같다. 라고 하면 이것은
06:49
: 자료를 전반적으로 다 조사하지 않아도 이 3개의 값이 같으면 수집한 자료는 중심은 모두 같죠. 그리고 좌우가 정확하게
07:01
: 대칭인 모양을 띠게 됩니다.
07:05
: 그래서 중심을 기준으로 해서 작은 값, 큰 값이 전부 다 이렇게 대칭적으로 자료가 수집되어 있다. 라는 것을 알 수 있다는 거죠.
07:14
: 그리고 이번에는 평균이 중앙값하고 비교를 했을 때, 평균이 중앙값보다 이렇게 작은 경우가 있습니다.
07:23
: 평균이 여기 있고, 중앙값은 여기 있지 않습니까. 그런 경우에는 대부분의 자료들이 어디에 많이 몰려있냐면.
07:31
: 오른쪽으로 많이 몰려 있다. 라는 것을 의미하는 겁니다.
07:36
: 오른쪽으로 많이 몰려 있기 때문에 자동적으로, 왼쪽으로 이렇게 꼬리가 긴 그런 자료의 분포가 나타나게 되는 거죠.
07:44
: 근데 반대로 평균이 뭐 보다 더 큰 경우도 있다. 중앙값보다 평균이 더 큰 경우가 있습니다.
07:51
: 그럼, 대부분의 자료들은요. 왼쪽에 이렇게 많이 몰려 있습니다.
07:56
: 그러면 상대적으로 분포의 꼬리는 오른쪽에 긴 경우가 나타나겠죠.
08:03
: 그래서 평균이다, 중앙값이다, 최빈값이다. 이런 통계량들만. 중심을 구하는 통계량들만 구해 놓아도 전체적으로
08:13
: 굳이 비대칭도라든지 그런 것들을 확인하지 않아도, 이 3가지 특히 평균과 중앙값에 크기만 가지고도 전체 데이터가
08:24
: 대칭적인지 아니면 어느 쪽으로 자료들이 몰려 있는지 같은 것들을 쉽게 확인할 수 있게 되는 겁니다.
20:00
:
04:42
~
06:10
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 기술통계_2
4yR1Uq_tRn8
00:05
: 자료를 숫자로 요약하는 통계량에 의해서 자료를 요약하고 정리하는 기술통계에 대한
00:12
: 얘기들을 구체적으로 조금 더 해보겠습니다.
00:15
: 통계량에 의한 자료를 요약한다는 것은 자료의 분포를 이해하기 위해서 3가지의 특성을 처리하는 방법입니다.
00:26
: 첫 번째가 중심 경향에 특성이죠. 여기서는 중심 위치라고 했는데
00:33
: 전체 자료의 분포가 중심이 어디에 있는지를 알아보려고 하는 목적을 가지고 있습니다.
00:41
: 그리고 또 하나는 전체적인 분포에서 중심이 어디에 있는지를 파악을 했다면
00:47
: 중심에서 전체 자료가 어떻게 퍼져 있는지, 흩어져있는 정도를 얘기하는 산포라고 하는 이 특성도
00:56
: 역시 통계량을 통해서 알아볼 수 있고요. 그리고 흩어져 있는 정도가 한쪽으로 몰려 있는지
01:06
: 어느 쪽으로 치우쳐져 있는지, 대칭인지, 어느 쪽으로 치우쳐져 있는지를 알아볼 수 있는 통계량도 있습니다.
01:16
: 그래서 대칭 정도를 나타내는 통계량. 이런 3가지 특성을 바로 기술통계. 특히 통계량을 통해서
01:24
: 숫자로 확인할 수 있게 되는 겁니다.
01:27
: 먼저 살펴볼 것은 중심경향. 전체적으로 주어져 있는 자료의 분포에서 중심이 어느 정도
01:40
: 어디에 있는지를 알려주려고 하는 목적에서 특히 숫자로 중심의 위치를 알려주는 것이기 때문에
01:48
: 중심에 대한 정확한 특성을 파악할 수 있는 그런 방법이라고 보시면 되겠고요.
01:54
: 대표적으로 3가지 방법을 씁니다.
01:57
: 전체 자료 분포의 중심이 어디 있는지를 알아보기 위해서 표본평균. 평균이라고 하는 걸 쓰고요.
02:02
: 그리고 두 번째 중앙값이라고 하는 걸 쓰고 여기는 나타나 있지 않지만, 세 번째로 쓰는 값이 최빈값이라고 하는 것을 씁니다. 최빈값.
02:11
: 평균은 mean이라고 하는 용어를 한번 봐주시고요. 중앙값은 median이라고 합니다. 그리고 최빈값은 mode라고 합니다.
02:26
: 그래서 이 세 가지의 통계량들을 이용을 하시면 전체 자료가 아무리 많다 하더라도 그 자료가
02:35
: 그 전체 자료가 어느 정도의 분포에서 중심이 어디에 있는지를 쉽게 확인하실 수 있겠죠.
02:43
: 평균을 구하는 방법은 다 아실 거고. 특히 여기에서 평균을 구하는 방법은 산술 평균을 하는 방법입니다.
02:50
: 전체에 주어진 자룟값들을, 관측값들을 다 더한 다음에 n으로 나누어 주는 거.
02:57
: 그리고 두 번째가 중앙값이라고 하는 것을 볼 수 있는데 중앙값은 자료의 크기 순서대로 일단 정렬을 먼저 시키죠.
03:04
: 관측된 자료를 크기 순서대로 정렬을 시킨 다음에 거기서 가장 중앙에 위치하는 그 관측값을 가지고
03:14
: 전체 분포에, 자료 분포에 중심이 바로 여기에 있다. 라고 확인 할 수 있는 방법이 바로 median. 중앙값이 될 겁니다 .
03:24
: 그런데 중앙값 같은 경우에는 홀수인 경우에는 찾기가 쉽죠. 홀수인 경우에는 가운데 있는 게 하나의 값으로 나타나겠지만.
03:32
: 짝수인 경우에는 가장 가까운 2가지의 값을, 가장 중심에 있는 2개의 값을 더해서 역시 산술 평균 해주시면
03:43
: 중앙값으로 보실 수 있겠습니다.
03:45
: 여기에 보면 하나의 자료가 있습니다. 직원들이 학교에 출근 소요 시간.
03:54
: 여기에 많은 시간들이, 15명 직원들에 대한 출근이 나와 있는데 그걸 가지고
03:59
: 표본 평균, 중앙값 이렇게 구하는 거. 연습 삼아서 나와 있으니까 한번 해보시면 되고요.
04:05
: 그리고 여기에 최빈값이라고 말씀드렸는데 최빈값 같은 경우에는 여기서도 최빈값을 구할 수 있습니다.
04:13
: 15개의 출근 시간대에 대한 자료 중에서 최빈값이라고 하는 것은 제일 반복되는 데이터. 가장 자주
04:22
: 반복적으로 나타나는 데이터를 전체 자료에 중심으로 삼겠다. 라고 하는 겁니다. 그래서 결론적으로 말씀드리면.
04:30
: 평균 같은 경우에는 수치적인 자료. 이런 수치 자료가 나왔을 때 평균을 구하는 것은 어렵지 않습니다.
04:39
: 쉽게 구하실 수 있고요.
04:42
: 그리고 두 번째 중앙값 같은 경우에도 수치 자료이기 때문에 줄 세워서 정렬을 시킨 다음에
04:51
: 가운데가 뭐가 있는지를 찾는 것은 어렵지 않습니다.
04:54
: 그런데 최빈값 같은 경우에는요.
04:57
: 이런 수치형 자료뿐만이 아니라 범주형 자료라고 했던 몇 학년입니까. 라고 물었을 때 또는
05:05
: 당신은 어디에 거주 하십니까. 라고 물었을 때 사람들마다 부산에 거주합니다, 서울입니다, 대구입니다. 이렇게 얘기할 때
05:13
: 그런 자료들은 수치형 자료가 아니라, 다 범주형 자료. 질적 자료라고 말씀드렸죠.
05:19
: 그런 질적 자료에 있어서도 가장 사람들이 반복적으로 많이 응답한, 관측값들을 최빈값으로 뽑아낼 수 있는 것이기 때문에
05:28
: 그래서 최빈값 같은 경우에는 중심을 나타내는 최빈값 같은 경우에는 자료의 종류에 상관없이
05:38
: 연속형 자료가 됐든, 이산형 자료가 됐든. 아니면 질적 자료가 됐든 자료의 종류가 상관없이
05:46
: 중심을 구할 수 있는 방법이라고 보시면 됩니다.
05:49
: 하지만, 이 3가지 중에서 통계학에서 그래도 중앙값 같은 경우에는 식을 쓴다고 얘기하기 어렵죠.
05:59
: 최빈값 같은 경우도 반복되는, 가장 자주 반복되는 것을 선택하는 방법이기 때문에 이거는 과학적이고 객관적인 방법이라고 얘기하기는 조금 그렇습니다.
06:10
: 그래서 통계학에서 중심을 측정할 때 객관적이고 과학적인 방법으로 자료의 중심을 얘기하는 측정하는
06:20
: 그런 통계량으로서 평균. mean이라고 하는 평균을 보통 많이 사용을 하고 있습니다.
06:26
: 그리고 이 3가지의 통계량을 가지고 값들의 크기를 가지고 비교를 해보면요. 통계량의 값.
06:35
: 통계량 값을 가지고 비교를 해보면 여기 한번 보시죠.
06:41
: 최빈값과 중앙값과 평균. 이 3개가 같다. 라고 하는 경우가 있습니다. 예를 들어서 같다. 라고 하면 이것은
06:49
: 자료를 전반적으로 다 조사하지 않아도 이 3개의 값이 같으면 수집한 자료는 중심은 모두 같죠. 그리고 좌우가 정확하게
07:01
: 대칭인 모양을 띠게 됩니다.
07:05
: 그래서 중심을 기준으로 해서 작은 값, 큰 값이 전부 다 이렇게 대칭적으로 자료가 수집되어 있다. 라는 것을 알 수 있다는 거죠.
07:14
: 그리고 이번에는 평균이 중앙값하고 비교를 했을 때, 평균이 중앙값보다 이렇게 작은 경우가 있습니다.
07:23
: 평균이 여기 있고, 중앙값은 여기 있지 않습니까. 그런 경우에는 대부분의 자료들이 어디에 많이 몰려있냐면.
07:31
: 오른쪽으로 많이 몰려 있다. 라는 것을 의미하는 겁니다.
07:36
: 오른쪽으로 많이 몰려 있기 때문에 자동적으로, 왼쪽으로 이렇게 꼬리가 긴 그런 자료의 분포가 나타나게 되는 거죠.
07:44
: 근데 반대로 평균이 뭐 보다 더 큰 경우도 있다. 중앙값보다 평균이 더 큰 경우가 있습니다.
07:51
: 그럼, 대부분의 자료들은요. 왼쪽에 이렇게 많이 몰려 있습니다.
07:56
: 그러면 상대적으로 분포의 꼬리는 오른쪽에 긴 경우가 나타나겠죠.
08:03
: 그래서 평균이다, 중앙값이다, 최빈값이다. 이런 통계량들만. 중심을 구하는 통계량들만 구해 놓아도 전체적으로
08:13
: 굳이 비대칭도라든지 그런 것들을 확인하지 않아도, 이 3가지 특히 평균과 중앙값에 크기만 가지고도 전체 데이터가
08:24
: 대칭적인지 아니면 어느 쪽으로 자료들이 몰려 있는지 같은 것들을 쉽게 확인할 수 있게 되는 겁니다.
20:00
:
00:05
: 자료를 숫자로 요약하는 통계량에 의해서 자료를 요약하고 정리하는 기술통계에 대한
00:12
: 얘기들을 구체적으로 조금 더 해보겠습니다.
00:15
: 통계량에 의한 자료를 요약한다는 것은 자료의 분포를 이해하기 위해서 3가지의 특성을 처리하는 방법입니다.
00:26
: 첫 번째가 중심 경향에 특성이죠. 여기서는 중심 위치라고 했는데
00:33
: 전체 자료의 분포가 중심이 어디에 있는지를 알아보려고 하는 목적을 가지고 있습니다.
00:41
: 그리고 또 하나는 전체적인 분포에서 중심이 어디에 있는지를 파악을 했다면
00:47
: 중심에서 전체 자료가 어떻게 퍼져 있는지, 흩어져있는 정도를 얘기하는 산포라고 하는 이 특성도
00:56
: 역시 통계량을 통해서 알아볼 수 있고요. 그리고 흩어져 있는 정도가 한쪽으로 몰려 있는지
01:06
: 어느 쪽으로 치우쳐져 있는지, 대칭인지, 어느 쪽으로 치우쳐져 있는지를 알아볼 수 있는 통계량도 있습니다.
01:16
: 그래서 대칭 정도를 나타내는 통계량. 이런 3가지 특성을 바로 기술통계. 특히 통계량을 통해서
01:24
: 숫자로 확인할 수 있게 되는 겁니다.
01:27
: 먼저 살펴볼 것은 중심경향. 전체적으로 주어져 있는 자료의 분포에서 중심이 어느 정도
01:40
: 어디에 있는지를 알려주려고 하는 목적에서 특히 숫자로 중심의 위치를 알려주는 것이기 때문에
01:48
: 중심에 대한 정확한 특성을 파악할 수 있는 그런 방법이라고 보시면 되겠고요.
01:54
: 대표적으로 3가지 방법을 씁니다.
01:57
: 전체 자료 분포의 중심이 어디 있는지를 알아보기 위해서 표본평균. 평균이라고 하는 걸 쓰고요.
02:02
: 그리고 두 번째 중앙값이라고 하는 걸 쓰고 여기는 나타나 있지 않지만, 세 번째로 쓰는 값이 최빈값이라고 하는 것을 씁니다. 최빈값.
02:11
: 평균은 mean이라고 하는 용어를 한번 봐주시고요. 중앙값은 median이라고 합니다. 그리고 최빈값은 mode라고 합니다.
02:26
: 그래서 이 세 가지의 통계량들을 이용을 하시면 전체 자료가 아무리 많다 하더라도 그 자료가
02:35
: 그 전체 자료가 어느 정도의 분포에서 중심이 어디에 있는지를 쉽게 확인하실 수 있겠죠.
02:43
: 평균을 구하는 방법은 다 아실 거고. 특히 여기에서 평균을 구하는 방법은 산술 평균을 하는 방법입니다.
02:50
: 전체에 주어진 자룟값들을, 관측값들을 다 더한 다음에 n으로 나누어 주는 거.
02:57
: 그리고 두 번째가 중앙값이라고 하는 것을 볼 수 있는데 중앙값은 자료의 크기 순서대로 일단 정렬을 먼저 시키죠.
03:04
: 관측된 자료를 크기 순서대로 정렬을 시킨 다음에 거기서 가장 중앙에 위치하는 그 관측값을 가지고
03:14
: 전체 분포에, 자료 분포에 중심이 바로 여기에 있다. 라고 확인 할 수 있는 방법이 바로 median. 중앙값이 될 겁니다 .
03:24
: 그런데 중앙값 같은 경우에는 홀수인 경우에는 찾기가 쉽죠. 홀수인 경우에는 가운데 있는 게 하나의 값으로 나타나겠지만.
03:32
: 짝수인 경우에는 가장 가까운 2가지의 값을, 가장 중심에 있는 2개의 값을 더해서 역시 산술 평균 해주시면
03:43
: 중앙값으로 보실 수 있겠습니다.
03:45
: 여기에 보면 하나의 자료가 있습니다. 직원들이 학교에 출근 소요 시간.
03:54
: 여기에 많은 시간들이, 15명 직원들에 대한 출근이 나와 있는데 그걸 가지고
03:59
: 표본 평균, 중앙값 이렇게 구하는 거. 연습 삼아서 나와 있으니까 한번 해보시면 되고요.
04:05
: 그리고 여기에 최빈값이라고 말씀드렸는데 최빈값 같은 경우에는 여기서도 최빈값을 구할 수 있습니다.
04:13
: 15개의 출근 시간대에 대한 자료 중에서 최빈값이라고 하는 것은 제일 반복되는 데이터. 가장 자주
04:22
: 반복적으로 나타나는 데이터를 전체 자료에 중심으로 삼겠다. 라고 하는 겁니다. 그래서 결론적으로 말씀드리면.
04:30
: 평균 같은 경우에는 수치적인 자료. 이런 수치 자료가 나왔을 때 평균을 구하는 것은 어렵지 않습니다.
04:39
: 쉽게 구하실 수 있고요.
04:42
: 그리고 두 번째 중앙값 같은 경우에도 수치 자료이기 때문에 줄 세워서 정렬을 시킨 다음에
04:51
: 가운데가 뭐가 있는지를 찾는 것은 어렵지 않습니다.
04:54
: 그런데 최빈값 같은 경우에는요.
04:57
: 이런 수치형 자료뿐만이 아니라 범주형 자료라고 했던 몇 학년입니까. 라고 물었을 때 또는
05:05
: 당신은 어디에 거주 하십니까. 라고 물었을 때 사람들마다 부산에 거주합니다, 서울입니다, 대구입니다. 이렇게 얘기할 때
05:13
: 그런 자료들은 수치형 자료가 아니라, 다 범주형 자료. 질적 자료라고 말씀드렸죠.
05:19
: 그런 질적 자료에 있어서도 가장 사람들이 반복적으로 많이 응답한, 관측값들을 최빈값으로 뽑아낼 수 있는 것이기 때문에
05:28
: 그래서 최빈값 같은 경우에는 중심을 나타내는 최빈값 같은 경우에는 자료의 종류에 상관없이
05:38
: 연속형 자료가 됐든, 이산형 자료가 됐든. 아니면 질적 자료가 됐든 자료의 종류가 상관없이
05:46
: 중심을 구할 수 있는 방법이라고 보시면 됩니다.
05:49
: 하지만, 이 3가지 중에서 통계학에서 그래도 중앙값 같은 경우에는 식을 쓴다고 얘기하기 어렵죠.
05:59
: 최빈값 같은 경우도 반복되는, 가장 자주 반복되는 것을 선택하는 방법이기 때문에 이거는 과학적이고 객관적인 방법이라고 얘기하기는 조금 그렇습니다.
06:10
: 그래서 통계학에서 중심을 측정할 때 객관적이고 과학적인 방법으로 자료의 중심을 얘기하는 측정하는
06:20
: 그런 통계량으로서 평균. mean이라고 하는 평균을 보통 많이 사용을 하고 있습니다.
06:26
: 그리고 이 3가지의 통계량을 가지고 값들의 크기를 가지고 비교를 해보면요. 통계량의 값.
06:35
: 통계량 값을 가지고 비교를 해보면 여기 한번 보시죠.
06:41
: 최빈값과 중앙값과 평균. 이 3개가 같다. 라고 하는 경우가 있습니다. 예를 들어서 같다. 라고 하면 이것은
06:49
: 자료를 전반적으로 다 조사하지 않아도 이 3개의 값이 같으면 수집한 자료는 중심은 모두 같죠. 그리고 좌우가 정확하게
07:01
: 대칭인 모양을 띠게 됩니다.
07:05
: 그래서 중심을 기준으로 해서 작은 값, 큰 값이 전부 다 이렇게 대칭적으로 자료가 수집되어 있다. 라는 것을 알 수 있다는 거죠.
07:14
: 그리고 이번에는 평균이 중앙값하고 비교를 했을 때, 평균이 중앙값보다 이렇게 작은 경우가 있습니다.
07:23
: 평균이 여기 있고, 중앙값은 여기 있지 않습니까. 그런 경우에는 대부분의 자료들이 어디에 많이 몰려있냐면.
07:31
: 오른쪽으로 많이 몰려 있다. 라는 것을 의미하는 겁니다.
07:36
: 오른쪽으로 많이 몰려 있기 때문에 자동적으로, 왼쪽으로 이렇게 꼬리가 긴 그런 자료의 분포가 나타나게 되는 거죠.
07:44
: 근데 반대로 평균이 뭐 보다 더 큰 경우도 있다. 중앙값보다 평균이 더 큰 경우가 있습니다.
07:51
: 그럼, 대부분의 자료들은요. 왼쪽에 이렇게 많이 몰려 있습니다.
07:56
: 그러면 상대적으로 분포의 꼬리는 오른쪽에 긴 경우가 나타나겠죠.
08:03
: 그래서 평균이다, 중앙값이다, 최빈값이다. 이런 통계량들만. 중심을 구하는 통계량들만 구해 놓아도 전체적으로
08:13
: 굳이 비대칭도라든지 그런 것들을 확인하지 않아도, 이 3가지 특히 평균과 중앙값에 크기만 가지고도 전체 데이터가
08:24
: 대칭적인지 아니면 어느 쪽으로 자료들이 몰려 있는지 같은 것들을 쉽게 확인할 수 있게 되는 겁니다.
20:00
:
04:42
~
06:10
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 기술통계_5 히스토그램
xkECLM8k8Hk
00:05
: 전체 자료의 특성을 파악하기 위해서, 특히 시각적으로 파악하는데 이용될 수 있는 그래프 방식을 한번 보도록 하겠습니다.
00:14
: 이 그래프 방식을 그래프로 그려 낼 때도 마찬가지로 수립된 자료의 형태에 따라서 선택할 수 있는
00:22
: 또 이용할 수 있는 그래프가 달라지거든요.
00:25
: 그러면 이 자료의 형태가 범주형 자료라는 거 있었죠.
00:30
: 숫자가 아닌 범주형 자료 같은 경우에는 가장 많이 이용하는 것이 막대그래프라든지, 파이 차트, 원그래프 같은 것들이 이용될 거고요.
00:40
: 그다음에 수치형으로 수집된 양적 자료. 그 양적 자료를 위해서는 히스토그램이라든지 꺾은선그래프라든지 아니면 산점도라든지
00:52
: 또는 줄기 그림, 상자 그림 이런 다양한 것들이 이용될 수 있습니다.
00:59
: 특히 이런 그래프를 그려내기 위해서 이 자료를 일차적으로 정리하고 요약하는데 어떻게 보면 그래프를
01:08
: 그리기에 앞서서 더 중요하게 베이스가 되는 도구가 있는데 그 도구가 바로 도수분포표라고 얘기할 수 있습니다.
01:18
: 표로 일단 먼저 작성을 해본다는 거죠. 이게 도수분포표를 나타낸 거고요. 수집한 데이터가 바로 이겁니다.
01:27
: 수집한 데이터가 어떤 데이터인가 봤더니 야구 선수들의 연봉 데이터군요.
01:32
: 연봉이 데이터이고 40명의 연봉 데이터가 수집이 됐습니다. 그런데 자리에 형태를 보시면 아시겠지만 일단 질적 자료는 아니죠.
01:45
: 양적인 자료가 일단 수집이 됐고요.
01:47
: 그리고 이거에 단위를 보시면 알겠지만, 이거는 이산형. 1이다, 2다, 3이다와 같이 셀 수 있는 그런 이산형 자료가 아니라
01:58
: 이것 같은 경우에는 연속형 자료입니다. 돈은 실수 형태가 될 수 있어요.
02:04
: 이렇게 표시한다면요, 여기에 백만 원 이렇게 쓰면요. 3.5백만 원이라고 쓰면 어떻게 읽으셔요. 3.5백만 원은
02:14
: 표기하는 3.5백만 원이라고 했지만 실제로 350만 원을 나타내는 거지 않습니까.
02:21
: 이런 식으로 수집한 자료는 단위를 어떻게 쓰느냐에 따라서 이렇게 실수가 될 수 있다는 겁니다.
02:28
: 그리고 실질적으로 돈은 실수 형태의 연속형 데이터가 많습니다.
02:34
: 연속형 데이터 됐든, 이산형 데이터가 됐든 또는 질적 자료가 됐든 자료들은 일차적으로 이렇게 도수분포표와 같은 이런 표의 형태를
02:46
: 이용할 수 있겠죠. 표의 형태로 이렇게 만들 때, 보시면 알겠지만, 자료를 한 변수가 가질 수 있는 값들의 계급으로, 계급 구간으로
02:57
: 또는 범주로 이렇게 나누어 줍니다.
03:00
: 그럼 지금 같은 경우에는 수집된 자료의 한 변수가 연봉이죠.
03:04
: 그래서 연봉을 가지고 일정한 계급의 구간으로 나누어 주는 겁니다. 이게 연속형 데이터다 보니까
03:10
: 어디에서 어디까지라고 하는 그 구간으로 표현을 하게 되어 있죠.
03:15
: 구간을 쭉 나누어 준 다음에, 그다음에 각각의 관측값들이 어느 구간에 해당하는지를, 도수를 여기에다가 어느 구간에 해당하는
03:28
: 200 같은 경우에는 어느 구간에 해당하나요. 101에서 200 사이에 들어가기 때문에 여기에다가 도수+1
03:36
: 300 같은 경우에는 여기에 들어가니까 여기에 1. 이런 식으로 작성해서 각 구간별로 계급 구간별로 관측된 도수들을
03:46
: 일목요연하게 만들어 놓은 표가 도수분포표가 되겠습니다.
03:52
: 그리고 도수분포표는 뭘 이용하기 위해서, 뭘 만들어 내기 위해서 이 표를 가지고 자료의 형태에 맞는 적정한
04:02
: 그래프를 그려내시게 되는 겁니다.
04:05
: 그러면 지금 같은 경우에는 연속형 데이터이기 때문에 연속형인 양적 자료이기 때문에
04:12
: 가장 많이 대표적으로 이용할 수 있는 그래프가 어떤 그래프가 될 거냐면 히스토그램이 될 겁니다.
04:20
: 이게 바로 히스토그램이에요. 막대그래프처럼 생겼죠. 그런데 이거는 히스토그램이고요.
04:29
: 히스토그램과 비교할 수 있는. 이것이 막대그래프입니다. 이거는 막대그래프예요.
04:38
: 그러면 둘 다 비슷하게는 생겼지만, 어느 때 히스토그램을 그리고, 어느 때 막대그래프를 그리는 것이 맞는지를 한번 보도록 하겠습니다.
04:47
: 히스토그램 같은 경우에는 좀 전에 보셨던 것처럼 도수분포표를 그래프로 나타냈을 때 이런 히스토그램을 그려 냈죠.
04:59
: 히스토그램은 보신 것처럼 연속형 데이터를 가지고 몸무게, 성적, 연봉. 여기 연봉 들어가 있잖아요. 그래서 돈이 됐든 아니면
05:09
: 시험 성적이 됐든, 아니면 몸무게가 됐든, 키가 됐든 대부분 다 이렇게 실수 형태로 측정될 수 있는 자료들은
05:19
: 그래프로 표현할 때 히스토그램으로 이렇게 표현을 하는 겁니다. 특히 막대 형태의 막대그래프 식으로 표현할 때는
05:25
: 막대그래프로 그려 내는 것이 아니라 히스토그램을 그려낸 겁니다. 히스토그램은 막대그래프하고 가장 큰 차이점이라고 얘기하면
05:34
: 막대그래프는 보시는 것처럼 간격이 있죠. 간격이 있는 반면에 연속되어 있는 데이터가 x축으로 들어가기 때문에 간격이 없습니다.
05:42
: 그런 큰 차이가 기본적으로 있고요. 그리고 또 하나의 차이라고 얘기를 하면
05:48
: 막대그래프는 범주형 데이터를 가지고 숫자가 아닌 범주형 데이터로 그려 낼 때, 그래프로 그려 낼 때 막대그래프로 그려 내는 거고
06:00
: 이거는 범주의 순서에 따라서, 의도에 따라 바꿀 수 있다고 되어 있죠. 그래서 주로 막대그래프를 그릴 때는요.
06:07
: 가장 앞쪽에다가 그리는 막대는 제일 빈도가 높은 것을 가장 앞쪽에다가 그려 줍니다. 그래서 나타내고자 하는 거
06:19
: 강조하고자 하는 것들을 가장 앞쪽에서 이렇게 표현을 많이 하고 있습니다.
06:24
: 순서대로 이렇게 나타나는 빈도가 높은 순서대로 이렇게 표현을 해주게 되면 누가 보더라도 한눈에
06:33
: 직장인들이 점심에 많이 선호하는 것이 어떤 메뉴인지를 한눈에 이렇게
06:41
: 비교할 수 있도록, 파악할 수 있도록 해주는 특징을 가지고 있죠.
06:45
: 그래서 범주의 순서를 의도에 따라서 얼마든지 바꿀 수 있다. 라는 것을 보시면 되고요.
06:51
: 그런데 비슷하게 생겨져 있는 히스토그램 같은 경우에는 임의대로 순서를 바꿀 수 없습니다.
06:56
: 왜냐하면 어디에서 어디까지, 어디에서 어디까지가 이렇게 연속적으로 나열되어 있기 때문에 그 순서에 맞춰서
07:04
: 이렇게 관측한 도수를 막대로 표현하는 것뿐이지, 이것을 여기에 100에서 200 또는 2000에서 3000 사이가 가장 많다고 해서 이거를
07:16
: 임의로 자리를 바꿔서 이 순서대로 이렇게 표현하겠다. 막대 높이 순서대로 표현하는 것은 히스토그램에서는 불가능 가능합니다.
07:24
: 그런 차이가 있다. 라는 걸 보시면 되겠고요. 그리고 특히 히스토그램과 막대그래프 같은 경우에는 굉장히 중요한 역할을 하고 있는데요.
07:33
: 그 역할이 이 2가지의 그래프는 자료의 분포. 자료가 어떤 식으로 분포를 나타내고 있느냐. 그리고 중심에서
07:47
: 어느 정도 퍼지고 있느냐. 이거 같은 경우에는 중심을 파악하기에는 조금 힘들죠. 왜냐하면 순서대로 정렬을 해버렸기 때문에
07:56
: 하지만 어떤 메뉴가 범주의 값이, 가장 자료가 관측이 많이 됐는지는 한눈에 파악할 수 있다고 한다면
08:03
: 특히 히스토그램 같은 경우 보세요.
08:06
: 범주의 순서를 바꿀 수 없었던 히스토리 같은 경우에는 전체적으로 자료에 중심의 어디 있는지를 알 수 있습니다.
08:13
: 가장 가운데가 가장 높게 나와 있기 때문에 전체적으로 연봉이 이 정도에 중심이 있겠구나. 중심 2500 정도 되네요.
08:23
: 2500만 원 정도가 전체 신입사원의 평균 연봉 정도가 되겠구나.
08:30
: 그리고 뿐만 아니라 이 중심에서 평균해서 어느 정도 연봉 데이터가 흩어져 있는지도 알 수 있습니다. 대충 보면
08:41
: -1000에서 + 어느 정도까지 그래서 어느 정도의 범주까지 이렇게 데이터들이 흩어져있느냐 하는 것도 파악할 수 있죠.
08:52
: 뿐만 아니라 중심 위치도 어디에 있는지 파악할 수 있고요. 그래서 시각적으로 이런 전체 자료의 분포를 보여주는 그런 이점을 가지고 있는 게
09:03
: 막대그래프 또는 히스토그램이라고 얘기할 수 있겠네요.
20:00
:
00:25
~
01:47
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음