남은 문제 : 36
문제 1548
분석 프로젝트 영역별 주요 관리 항목이 아닌 것은?
보기
1.품질
2.시간
3.가격
4.자원
정답
3
해시
태그
lADsP 완전 정복l 분석과제 관리_3
wf6PlU2mh78
00:05
: 마지막으로 살펴봤었던 다섯 번째가 정확성과 일관성의 관련된 부분들이었죠.
00:17
: 그래서 정확성과 일관성에서 해당되는 내용으로 다시 한번 보면, 정확성이 라고 하는 건.
00:25
: 모델과 실제 값 사이에 차이가 적다. 즉 예측값과 그리고 실제 값의 차이가 작은 걸 정확도라고 얘기를 한다. 라고 했었고
00:36
: 그리고 일관성은 계속 모델을 반복적으로 수행을 했을 때에 어느 정도의 편차를 보이는지
00:45
: 그 편차 수준이 어느 정도의 일관성을 가지는지. 편차가 거의 비슷하게 결과가 나오는지
00:56
: 그게 일관성이라고 얘기를 했었습니다.
00:59
: 그래서 일관적이다. 라고 한다면 안전성 측면에서 좀 더 점수를 줄 수 있는 거고
01:05
: 정확성은, 정확하면 분석을 할 때 실제 적용을 하기가 좋은 그런 부분들이 되겠지요.
01:13
: 자 그러면 이 측면에서 이러한 정확성과 일관성과 관련된 이 부분들을 이 그림에서 설명을 드려보도록 하겠습니다.
01:25
: 여기에 보면 A, B, C, D가 있고, 과녁이 있고, 이렇게 까만색 점으로 맞힌 흔적들이 보이네요.
01:38
: 그런 상황이라고 한다면 여기에서 보면 과녁에 A같은 경우에는. 이 과녁이 있으며 당연히 중앙에 맞히는.
01:48
: 가장 가운데에 맞히는 게 가장 좋겠죠. 여기에서 A는 보면 정확성도 낮고 그리고 일관성도 낮은 겁니다.
02:00
: 정확하게 이 중앙을 맞히지도 못하고 있고 그리고 처음 쐈을 때는 여기 찍었다가 4점짜리 찍었다가
02:10
: 그다음 번에 찍었을 때는 또 8점이었다가 그다음 했을 땐 또 9점이었다가 또 했더니 7점이었다가.
02:18
: 이렇게 막 들쑥날쑥합니다. 이런 경우라고 하면 예측을 하기가 어렵겠죠.
02:26
: 이 모델을 선택하기가 어려울 겁니다. 또 만약에 여러분들도 토익 시험을 쳤다.
02:34
: 토익 시험이든 아니면 어떤 자격증 시험이든 시험을 쳤다. 라고 한다면
02:40
: 100점 만점이다. 라고 했을 때에 어떤 경우에는 완전 기분파여서 어떤 때는 시험을 쳤더니 20점이 나오고
02:51
: 어떤 때는 쳤더니 95점이 나오고, 어떤 때는 65점이 나오고, 70점이 나오고 이렇게 들쑥날쑥 하면
03:01
: 다음번에 이 사람의 성적이 어느 정도 될 것이다. 라고 하는 걸 예측할 수가 없겠죠.
03:10
: 그런 것들이 정확성과 일관성의 대한 부분입니다.
03:13
: 들쑥날쑥한 거죠. 일관적이지 않은, 낮은 일관성 보이는 예라고 할 수 있을 겁니다.
03:21
: 자 그러면 B를 한 번 봅시다. B같은 경우에는 중앙에 맞힌 건 하나도 없습니다. 정확하게 맞힌 건 없습니다.
03:34
: 근데 한 쪽에 거의 모여있죠. 만약에 이쪽의 점수가 4점이라고 한다면
03:43
: 4점에 다 모여 있는데 그 4점도 왼쪽 위에, 오른쪽 아래에, 이런 식으로 들쑥날쑥한 게 아니라
03:53
: 보면 왼쪽 상향에 다 맞혀져 있습니다. 일관적이긴 한 거죠. 편차가 크게 없습니다.
04:01
: 들쑥날쑥 하지는 않죠. 모여 있습니다. 그래서 일관성은 높다. 라고 할 수 있고
04:09
: 대신에 중앙은 못 맞혔죠. 정확하게 맞히지는 못했습니다.
04:15
: 정확도는 낮은 상황인 거죠. 이것은 일관성은 높은 그림입니다.
04:22
: 그리고 C의 같은 경우에는 C는 보면 중간 주변에 이렇게 있습니다.
04:30
: 가장 높은 점수, 만점이 되는 그것 주변에 그래도 좀 흩어져 있죠. 바깥에 빨간 선 바깥에 흰 선 쪽으로는 아예 가지도 않았습니다.
04:42
: 정중앙 아니면 그 중앙에서 살짝 벗어난 정도 비교적 정확하게 맞힌 거죠.
04:49
: 그래서 정확성이 높은 상황. 근데 들쑥날쑥하죠. 중간 비슷하게도 맞혔다가 그것보다 왼쪽에도 있었다가
05:00
: 더 오른쪽에도 있었다가, 왼쪽 위에도 있었다가, 오른쪽 아래에도 있었다가 들쑥날쑥합니다.
05:07
: 일관성이 낮은 상황이겠죠. 그리고 D의 같은 경우에는 모두가 다 중간에 있습니다.
05:15
: 거의 올림픽을 할 때, 한국 양궁 선수들이 거의 이렇게 맞히죠. 거의 중앙에 맞힙니다.
05:23
: 카메라를 깨뜨릴 정도의 그런 수준으로 나오고 있습니다. 아주 정확도도 높고
05:30
: 그리고 일관성도 아주 높은 상황입니다. 이런 상황이 제시가 되어져 있다. 라고 한다면
05:38
: A, B, C, D의 상황이 이렇게 나와 있다. 라고 한다면 이 상황에서 4개 중에서 가장 바람직한 경우.
05:48
: 분석을 했을 때, 가장 정확하게 예측하고 가장 일관성 있게 예측하고, 가장 바람직한 경우. 딱 봐도 D임을 알 수 있습니다.
05:59
: D가 되겠죠. 정확하게 여기에다 맞힌. D라고 볼 수 있습니다.
06:04
: 그러면 D가 좋은 건 알겠는데, 그 외에는 어떤 것들이 좋을지, 둘 다 낮은 것은 아마도 제일 안 좋겠죠.
06:15
: 정확성도 낮고 일관성도 낮은 건 아마도 제일 안 좋을 겁니다.
06:21
: 모두 다 높은 D와 모두 다 낮은 A의 순서는 정해진 것 같은데, 그러면 B와 C중에서는 어떤 것을 더 좋은 것이라고 생각할 수 있을지, B가 될 겁니다.
06:38
: 이런 경우라고 하면 양궁이든 아니면 사격이든 이렇게 여기에만 이렇게 맞혀진다. 라고 한다면 아마도 여기에서는 발을
06:52
: 오른쪽으로 한 5cm만 살짝 틀어 본다든지 하게 되면, 아니면 총구를 옆으로 1cm 정도만 살짝 옮겨 본다든지 하게 되면
07:09
: 이쪽에 다 정확하게 맞힐 확률이 훨씬 높아지는 겁니다. 일관성 있게 이렇게 한쪽에만 맞히고 있는 것. 방향 설정만 조금 해준다면
07:22
: 분석으로 친다면 모델을 조금만 수정을 한다면, 여기 아주 정확하게 맞힐 확률이 훨씬 더 크다는 겁니다.
07:31
: C는 여기에 주변에 이렇게 맞히고 있지만 일관적이지 않은 거죠.
07:38
: 그래서 해당 모델을 어떤 경우에는 잘 맞고, 어떤 경우에 적용했을 때는 잘 맞지 않는 경우가 있다는 겁니다.
07:47
: 그래서 안정적인 측면에서 좋은 점수를 받기가 어렵다는 거죠.
07:53
: 그래서 가장 좋은 순서를 정해 본다. 라고 하면 D가 가장 좋은 테고, 그리고 A가 가장 안 좋을 겁니다.
08:05
: D가 가장 좋을 테고 그다음이 B가 되겠죠.
08:10
: 그리고 그 다음이 C, 그리고 제일 안 좋은 게 A가 될 겁니다. 이런 것들도 찾아낼 수 있으면 좋겠죠.
20:00
:
00:17
~
01:31
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 분석 프로젝트의 특성
PcNk4OAvdG8
00:05
: 분석 프로젝트의 특성에 대해서 간략하게 한 번 보도록 하겠습니다.
00:12
: 분석 프로젝트에서는 분석가가 참여를 하게 될 텐데, 이 분석가는 개별적인 분석 업무를 수행을 하기도 할 테고
00:24
: 그리고 그것뿐만 아니라, 전반적인 프로젝트 관리도 분석가들이 수행을 하는 경우가 많다는 겁니다.
00:34
: 앞에서 데이터 사이언티스트를 얘기할 때에 분석을 하는 그런 하드 스킬들도 필요했었지만
00:43
: 소프트 스킬도 중요하다. 라고 했었죠. 커뮤니케이션이나 이런 것들이 중요하다. 라고 했었기 때문에
00:51
: 그래서 그런 것들, 그런 기능들이 필요한 이유가 전반적인 프로젝트를 관리하는. 전체를 바라보는 시선도 중요할 테고
01:01
: 거기에 참여하는 많은 사람들과의 관계를 조정하는, 업무를 조정하는 이러한 역할들도 중요할 수 있다는 거죠.
01:12
: 그래서 이런 분석가들이 하드 스킬인 기술적인, 데이터 적인 이런 부분에서 이해를 하고 기술력을 높이는 것들도
01:24
: 당연히 중요할 테고, 뿐만 아니라 비즈니스 영역에 현황에 대해서도 충분히 파악을 하고
01:33
: 거기에 있는, 참여하는 사람들에 대한 이해도도 충분히 있다고 한다면, 이런 분석에 최종 결과를 더욱 효과적으로 제시를 할 수 있는
01:46
: 이러한 결과를 나타낼 수가 있을 거라는 겁니다.
01:51
: 그리고 특히나 이런 분석가들은 실제로 분석을 하는 그런 기술적인 부분들
01:58
: 그래서 여기에도 보시면 분석의 정확도. 정확하게 예측을 하는, 기술적으로 정확하게 예측을 하는
02:06
: 이런 부분들도 당연히 중요하겠지만, 이런 분석들이, 분석 결과들이 기업에 적용이 되어야 되겠죠.
02:17
: 전략을 만들어내는데, 전략을 생성하는 데 활용이 될 수 있어야 될 겁니다.
02:23
: 그리고 그런 것들을 직원들이 받아들일 수 있도록, 이해가 잘되도록 설명하는 이런 것들도 필요하겠죠.
02:32
: 결과에 대한 가치 이해를 조직의 구성원들한테 전달하는 그러한 역할도 분석가가 해야 되기때문에
02:42
: 조정자로서의 분석가 역할이 중요한 부분입니다. 계속 앞에서도 강조를 했던 게 하드 스킬도 중요하지만
02:52
: 소프트 스킬이 아주 중요하다. 라는 얘기들을 했었죠.
02:58
: 분석가의 입장들, 이런 것들에 대한 부분들도 한 번 생각을 해 볼 필요가 있겠습니다.
03:08
: 앞에서도 분석을 할 때에 많이 활용이 되어 지는게 프로토타이핑 방식을 많이 활용한다. 라고 했었죠.
03:20
: 기존에 있던 방식이 아닌 새로운 어떤 과제에 대한 접근을 할 때에는 그거에 대한 확신이 없기 때문에
03:26
: 그래서 계속 시도를 해보고 지속적으로 반복하고 개선해 나가는 이런 작업이 계속 이루어지는, 그런 프로토타이핑 방법을 활용을 한다고 했습니다.
03:41
: 그래서 그 프로토타이핑 방식에 프로젝트 관리 방법 중에 하나가 어자일 방식이라고 볼 수 있는데
03:49
: 이 부분도 계속적으로 반복해 나가면서 프로젝트를 관리해 나가는 그러한 방법입니다.
03:58
: 매번 다른 분석을 실행을 할 수 있기 때문에 틀에 짜여진 그런 방식이 아니라 계속적으로 변화하고
04:08
: 그로 인해서 새롭게 수정하고, 개선하고 이걸 다시 적용해 보고 부족한 부분은 다시 개선하는
04:15
: 이러한 반복적인 방법이 분석 프로젝트에는 적절한 방법이다. 라고 생각을 하시면 되겠습니다.
20:00
:
01:12
~
02:25
1
2
3
검수 상태 :
불통
통과
불통
최종불통
lADsP 완전 정복l 분석과제 관리_1
UQlZOQ-YcDY
00:05
: 분석 과제를, 이미 우리가 만들어낸 분석 과제를 과제 형태로 도출이 된 분석의 기회를 실제로 실행을 해봐야 될 겁니다.
00:19
: 그래서 프로젝트화 시키려고 할 때는, 몇 가지 고려를 해야 되는 사항들이 있습니다.
00:27
: 그래서 밑에 보는 그림에서 보여지는 분석 과제의 주요 5가지 특성들.
00:36
: 주요 관리 영역들 이런 부분들을 고려를 해봐야 되겠습니다.
00:43
: 그래서 영역들은 보면 일단은 데이터의 사이즈들. 데이터의 크기. 이 부분들은 범위 설정 부분에서
00:53
: 중요한 역할을 하고 있습니다.
00:57
: 그리고 두 번째로는 데이터의 복잡성. 얼마나 데이터가 복잡한지. 즉 정형 데이터인지, 비정형 데이터인지에 대한
01:10
: 그런 부분들이 데이터의 복잡성이라고 표현을 할 수가 있겠죠.
01:17
: 그리고 스피드. 속도라고 나와 있지만 어떻게 보면 이 부분들은 속도의 측면 일수도 있지만
01:25
: 데이터가 생성이 되어지는 어떤 주기들.
01:30
: 그리고 실시간인지 아니면 배치 형태인지, 이러한 것들이 스피드 항목에 포함이 된다고 보시면 되겠습니다.
01:41
: 그리고 분석을 할 때에 얼마나 복잡한지, 분석 방법의 복잡도도 고려를 해 볼 필요가 있겠죠.
01:52
: 너무 복잡하다거나 했을 경우에는 프로젝트로 이루어지지 않을 수도 있겠죠. 그걸 수행할 인력들이 부족하다거나 분석할 도구가 없다거나 하면
02:03
: 실행이 되지 않을 수도 있을 겁니다. 그래서 분석 방법의 복잡도도 고려 해야 되고
02:11
: 그리고 정확성과 일관성과 관련된 부분들도 살펴봐야 되겠죠.
02:18
: 그래서 이런 5가지 측면을 잘 고려해서 적절한 분석 과제를 선택해서 프로젝트를 실제로
02:29
: 시작을 할 수 있을 겁니다.
02:32
: 그러면 여기에서 나온 이 5가지 항목 뜻. 이것들 잘 기억을 하시도록 하시고
02:41
: 잘 기억을 하기 위해서는 세부적인 사항들을 살펴보는 게 좋겠죠. 그래서 5가지 사항들에 대해서
02:52
: 각각에 대해서 한 번 살펴보도록 하겠습니다.
02:56
: 일단 첫 번째로 나온 게 아까 데이터의 사이즈였죠. 데이터의 규모, 데이터의 양.
03:04
: 그래서 데이터의 사이즈와 관련된 부분은 분석하고자 하는 데이터의 양을 고려해서 관리 방안이 수립 되어져야 됩니다.
03:14
: 그래서 여기에 보면 예시가 나오고 있지만 기존의 정형 데이터 베이스에 있는 시간당 생성되는 데이터 정형이고 시간당 생성되는 데이터라고 한다면
03:28
: 그렇게 양이 많거나 하지는 않을 겁니다. 근데 정형 데이터가 아닌 텍스트나, 숫자나 이런 것들이 아닌 음성이나
03:39
: 영상이나, 로그 데이터나, 센서 데이터나 이런 것들은 엄청나게 많이 만들어지죠. 그러다 보면
03:47
: 데이터의 양이 엄청나게 늘어날 수 있습니다. 그렇게 되면 그 엄청난 양의 데이터는 관리하는
03:57
: 방법에서도 차이가 날 테고, 관리하는 도구에도 차이가 날 테고
04:03
: 그러면 비용적인 측면에서도 당연히 차이가 나겠죠. 그래서 그런 부분들이 있기 때문에
04:10
: 일단 첫 번째로 데이터에 크기. 사이즈를 먼저 설정을 해야 되겠습니다.
04:18
: 비정형 데이터가 들어간다. 라고 한다면 노 시퀄, 노 SQL이라고 하는 방법으로 이용을 할 수 있을 테고
04:29
: 데이터들을 관리하거나 할 수 있을 테고, 그리고 데이터 양이 너무 많아져서
04:37
: 하나의 서버에서 관리하기가 어렵다. 라고 한다면 하둡. 하둡 환경을 구축해야 될 필요도 있을 겁니다.
04:46
: 그래서 관리 방식이나 도구나 이런 것들이 달라질 것이기 때문에 가장 먼저 데이터의 사이즈를 고려하는 게
04:54
: 아주 중요한 부분이다. 라고 볼 수가 있겠죠.
04:58
: 두 번째로는 데이터의 복잡성. 이 데이터에 복잡성도 관리 방식이나 분석 기법들이 달라질 수 있을 거기 때문에
05:09
: 이것도 중요한 부분이 되겠죠.
05:12
: 그래서 BI 프로젝트처럼 정형 데이터가 분석 마트로 구성이 되어져 있는 상태에서 분석하는 거. 이런 것과 달리
05:21
: 정형 데이터는 그래도 분석이 용이합니다.
05:25
: 분석 기법도 용이하고, 데이터를 관리하게 해도 비교적 용이 하지만
05:33
: 오디오나 비디오나 이러한 비정형 데이터가 포함이 되어지는 경우라고 한다면, 이런 비정형 데이터는
05:42
: 분석을 하는 방법들도 달라지게 되는 거죠. 그래서 데이터의 유형이 어떻게 복잡해지는 틀에 짜여 있는 구조화 되어져 있는 그런
05:55
: 정형 데이터인지, 아니면 형식이 정해져 있지 않은 구조화 되어져 있지 않은 비구조적 비정형 데이터인지에 따라서
06:10
: 초기 데이터를 확보하고 통합하는 데이터를 머징 하는, 합치는, 여러 데이터 원천에서 가지고 오는
06:19
: 데이터를 하나의 데이터로, 하나의 파일 형태로 합치는 것들도 비정형 데이터에서 쉽지 않다는 겁니다.
06:28
: 그렇게 통합하는 과정, 그리고 분석 모델을 만드는 과정. 이런 것들이 더 복잡해질 수 있다는 겁니다.
06:38
: 그래서 데이터의 복잡성, 데이터 유형들을 먼저 사전에 고려를 해서 미리
06:44
: 체크를 하는 게 이 과제를 내가 프로젝트화 하겠다, 안 하겠다를 결정짓는 데도 좀 중요한 부분들이 될 수 있을 겁니다.
06:56
: 그리고 세 번째로 나오는 게 스피드. 스피드는 분석 결과가 도출이 되었을 때
07:04
: 시나리오 측면에서의 속도를 고려를 하는 겁니다.
07:11
: 일 단위, 주 단위 실적의 경우에는 배치 형태로 작업을 할 수 있습니다.
07:21
: 배치 형태는 실시간이 아닌 하루에 한 번. 그날 자정에 몰아 가지고 한 번 데이터를 수집해 오는.
07:32
: 아니면 매주 월요일 자정에 데이터를 해당 주에. 해당 주의 데이터들을 주 단위로 한꺼번에
07:41
: 가지고 오는 경우. 이런 것도 배치 형태라고 얘기하죠.
07:46
: 이렇게 배치 형태로 작업을 해야 되는건지, 아니면 실시간으로 계속 데이터를 수집하고 있어야 되는 건지
07:55
: 이런 부분들을 잘 살펴볼 필요가 있다는 거죠. 그래서 이건 데이터의 성격에 따라서 배치 형태로
08:05
: 수집을 해도 되는지, 아니면 실시간으로 관리를 해야 되는지가 결정이 될 겁니다.
08:11
: 여기에서도 만약에 사기를 탐지해 내는 금융 사이트에서 본인이 아닌데 다른 사람이 어떤 계좌에서 돈을 인출해 나가려고 한다.
08:24
: 이런 경우에는 실시간으로 바로 잡아내야 되는 거죠. 이게 일주일에 한 번 데이터가 모아진다. 라고 하면
08:33
: 월요일 자정에 모아진다. 라고 한다면 이런 사람들은 월요일 오전 일곱시 이 정도에 인출을 시도할 수도 있을 겁니다.
08:43
: 그러면 한 일주일간 이게 적발되려면, 일주일 정도의 시간이 있는 거죠
08:50
: 시간적 여유가 있을 겁니다. 범죄자 입장에서는 좋을 수 있겠죠.
08:55
: 그래서 그런 부분들이 있기 때문에, 이런 것들이 실시간으로 이런 부분들은 데이터가 처리가 되어 줘야 되는.
09:03
: 그래서 여기에서도 주기가 어떻게 이루어지는지. 그걸 속도와 관련된 부분이라고 보시면 되겠습니다.
09:12
: 그래서 어떤 속도나 이런 부분들을 중요하게 생각을 한다고 하면 모델을 개발하고 할 때에도
09:23
: 좀 더 주의 깊은 테스트나 이런 것들이 이루어져야 되겠죠.
20:00
:
03:10
~
04:32
1
2
3
검수 상태 :
불통
통과
불통
최종불통
키워드 :
영상UID :
시작 시간 :
종료 시간 :
우선순위 :
추가
이전
다음