본문 바로가기
🖊️Certificate/📌ADsP

[ADsP] Part2 오답 개념 정리

by 빛나고요 2021. 8. 16.
BIG

Study. ADsP 

Part2. 데이터 분석 기획
분석기획

: 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

 

분석 대상과 방법

: 분석은 분석의 대상과 분석의 방법에 따라서 4가지로 나누어진다. 

Optimization(최적화) : 분석 대상을 알고 있으면서 분석 방법도 알고 있는 경우

Insight(통찰력) : 분석 방법은알고 있으나, 분석 대상이 무엇인지 모르는 경우

Solution(해결책) : 분석 대상은 알고 있지만, 분석 방법을 모르는 경우

Discovery(발견) : 분석 대상과 분석 방법을 모두 모르는 경우

 

<분석 주제의 4가지 유형>

 

목표 시점 별 분석 기획 방안

: 과제 중심적인 접근 방식과 장기적인 마스터 플랜 방식으로 나눌 수 있다.

과제 중심적인 접근 방식: 당면한 과제를 빠르게 해결

장기적인 마스터 플랜 방식: 지속적인 분석 내재화

 

<목표 시점별 분석 기획 방안>

 

분석 기획시 고려사항

가용 데이터(Available data)에 대한 고려

데이터의 확보

데이터 유형(적용 가능한 솔루션 및 분석 방법) 분석

④ 적절한 활용방안과 유즈케이스(Proper Business Use Case) 탐색

⑤ 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립

 

정형·반정형·비정형 데이터
종류 정형(Structured) 데이터 반정형(Semi-structured) 데이터 비정형(Unstructured) 데이터
특징 - 데이터 자체로 분석 가능
- RDB구조의 데이터
- 데이터베이스로 관리
- 데이터로 분석이 가능하지만 해석이 불가능하며 메타정보를 활용해야 해석이 가능 - 데이터 자체로 분석이 불가능
- 특정한 처리 프로세스를 거쳐 분석데이터로 변경 후 분석
유형 - ERP, CRM, SCM 등 정보시스템 - 로그데이터, 모바일데이터, 센싱데이터 - 영상, 음성, 문자 등

 

분석 방법론

[1] 분석 방법론 개요

(1) 방법론의 개요

: 데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적

 

 

(2) 데이터 기반 의사결정의 필요성

① 경험과 감에 따른 의사결정 

② 기업의 합리적 의사결정을 가로막는 장애요소

    - 고정 관념(Stereotype)

    - 편향된 생각(Bias)

    - 프레이밍 효과(Framing Effect): 문제의 표현 방식에 따라 동일한 사건, 상황임에도 개인의 판단, 선택이 달라질 수 있는 현상

 

(3) 방법론의 생성과정 

<방법론의 생성과정>

 

(4) 방법론의 적용 업무의 특성에 따른 모델

① 폭포수 모델(Waterfall Model): 단계를 순차적으로 진행하는 방법

프로토타입 모델(Prototype Model): 고객의 요구를 완벽하게 분석하는 어려움을 해결하기 위해 일부분을 우선 개발하여 제공한 후, 그 결과를 통한 개선 작업을 시행하는 모델

③ 나선형 모델(Spiral Model): 반복을 통해 점증적으로 개발하는 방법으로 체계적이지 못한 프로젝트의 경우 복잡도가 상승하여 진행이 어려울 수 있음

 

(5) 방법론의 구성

 상세한 절차(Procedures)

 방법(Methods)

 도구와 기법(Tools&Techniques)

 템플릿과 산출물(Templates&Outputs)

 

 

[2] KDD 분석 방법론

(1) KDD 분석 방법론의 개요

- KDD(Knowledge Discovery in Databases): 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터마이닝 프로세스

- 데이터 마이닝(대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정), 기계학습(=머신러닝), 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 가지고 있음

 

(2) KDD 분석 절차

① 데이터셋 선택

    - 분석 대상의 비지니스 도메인에 대한 이해와 프로젝트 목표 설정

    - 데이터 마이닝에 필요한 목표데이터를 구성하여 분석에 활용

    - DB 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계

데이터 전처리

    - 분석 대상용 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별하고 재처리하여 데이터셋을 정제하는 단계

    - 데이터 전처리 단계에서 추가로 요구되는 데이터셋이 필요한 경우 프로세스를 재실행

③ 데이터 변환

    - 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 데이터를 변경하는 단계

    - 학습용 데이터와 검증용 데이터로 데이터를 분리하는 단계

④ 데이터 마이닝

    - 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 알고리즘을 적용하여 실행하는 단계

    - 필요에 따라 전처리와 변환 프로세스를 실행하여 최적의 결과를 산출

⑤ 데이터 마이닝 결과 평가

    - 결과에 대한 해석과 평가, 분석 목적과의 일치성을 확인

    - 데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련 단계

    - 필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행

 

[3] CRISP-DM 분석 방법론

(1) CRISP-DM 분석 방법론의 개요

- 주요한 5개의 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도

- 계층적 프로세스 모델로써 4개 레벨로 구성

 

 

 

(2) CRISP-DM의 4레벨 구조

- 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함

  - 일반화 태스크: 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 구체적인 수행 레벨인 세분화 태스크(Specialized Tasks)로 구성

- 마지막 레벨인 프로세스 실행(Process instances)은 데이터 마이닝을 위한 구체적인 실행을 포함

 

 

댓글