Study. ADsP
Part2. 데이터 분석 기획
분석기획
: 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
분석 대상과 방법
: 분석은 분석의 대상과 분석의 방법에 따라서 4가지로 나누어진다.
① Optimization(최적화) : 분석 대상을 알고 있으면서 분석 방법도 알고 있는 경우
② Insight(통찰력) : 분석 방법은알고 있으나, 분석 대상이 무엇인지 모르는 경우
③ Solution(해결책) : 분석 대상은 알고 있지만, 분석 방법을 모르는 경우
④ Discovery(발견) : 분석 대상과 분석 방법을 모두 모르는 경우
목표 시점 별 분석 기획 방안
: 과제 중심적인 접근 방식과 장기적인 마스터 플랜 방식으로 나눌 수 있다.
① 과제 중심적인 접근 방식: 당면한 과제를 빠르게 해결
② 장기적인 마스터 플랜 방식: 지속적인 분석 내재화
분석 기획시 고려사항
① 가용 데이터(Available data)에 대한 고려
② 데이터의 확보
③ 데이터 유형(적용 가능한 솔루션 및 분석 방법) 분석
④ 적절한 활용방안과 유즈케이스(Proper Business Use Case) 탐색
⑤ 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립
정형·반정형·비정형 데이터
종류 | 정형(Structured) 데이터 | 반정형(Semi-structured) 데이터 | 비정형(Unstructured) 데이터 |
특징 | - 데이터 자체로 분석 가능 - RDB구조의 데이터 - 데이터베이스로 관리 |
- 데이터로 분석이 가능하지만 해석이 불가능하며 메타정보를 활용해야 해석이 가능 | - 데이터 자체로 분석이 불가능 - 특정한 처리 프로세스를 거쳐 분석데이터로 변경 후 분석 |
유형 | - ERP, CRM, SCM 등 정보시스템 | - 로그데이터, 모바일데이터, 센싱데이터 | - 영상, 음성, 문자 등 |
분석 방법론
[1] 분석 방법론 개요
(1) 방법론의 개요
: 데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적
(2) 데이터 기반 의사결정의 필요성
① 경험과 감에 따른 의사결정
② 기업의 합리적 의사결정을 가로막는 장애요소
- 고정 관념(Stereotype)
- 편향된 생각(Bias)
- 프레이밍 효과(Framing Effect): 문제의 표현 방식에 따라 동일한 사건, 상황임에도 개인의 판단, 선택이 달라질 수 있는 현상
(3) 방법론의 생성과정
(4) 방법론의 적용 업무의 특성에 따른 모델
① 폭포수 모델(Waterfall Model): 단계를 순차적으로 진행하는 방법
② 프로토타입 모델(Prototype Model): 고객의 요구를 완벽하게 분석하는 어려움을 해결하기 위해 일부분을 우선 개발하여 제공한 후, 그 결과를 통한 개선 작업을 시행하는 모델
③ 나선형 모델(Spiral Model): 반복을 통해 점증적으로 개발하는 방법으로 체계적이지 못한 프로젝트의 경우 복잡도가 상승하여 진행이 어려울 수 있음
(5) 방법론의 구성
① 상세한 절차(Procedures)
② 방법(Methods)
③ 도구와 기법(Tools&Techniques)
④ 템플릿과 산출물(Templates&Outputs)
[2] KDD 분석 방법론
(1) KDD 분석 방법론의 개요
- KDD(Knowledge Discovery in Databases): 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터마이닝 프로세스
- 데이터 마이닝(대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정), 기계학습(=머신러닝), 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 가지고 있음
(2) KDD 분석 절차
① 데이터셋 선택
- 분석 대상의 비지니스 도메인에 대한 이해와 프로젝트 목표 설정
- 데이터 마이닝에 필요한 목표데이터를 구성하여 분석에 활용
- DB 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계
② 데이터 전처리
- 분석 대상용 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별하고 재처리하여 데이터셋을 정제하는 단계
- 데이터 전처리 단계에서 추가로 요구되는 데이터셋이 필요한 경우 프로세스를 재실행
③ 데이터 변환
- 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 데이터를 변경하는 단계
- 학습용 데이터와 검증용 데이터로 데이터를 분리하는 단계
④ 데이터 마이닝
- 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 알고리즘을 적용하여 실행하는 단계
- 필요에 따라 전처리와 변환 프로세스를 실행하여 최적의 결과를 산출
⑤ 데이터 마이닝 결과 평가
- 결과에 대한 해석과 평가, 분석 목적과의 일치성을 확인
- 데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련 단계
- 필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행
[3] CRISP-DM 분석 방법론
(1) CRISP-DM 분석 방법론의 개요
- 주요한 5개의 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도
- 계층적 프로세스 모델로써 4개 레벨로 구성
(2) CRISP-DM의 4레벨 구조
- 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함
- 일반화 태스크: 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 구체적인 수행 레벨인 세분화 태스크(Specialized Tasks)로 구성
- 마지막 레벨인 프로세스 실행(Process instances)은 데이터 마이닝을 위한 구체적인 실행을 포함
'🖊️Certificate > 📌ADsP' 카테고리의 다른 글
[ADsP] 2과목_01장. 데이터 분석 기획의 이해 (0) | 2024.02.19 |
---|---|
[ADsP] 1과목_02장. 데이터의 가치와 미래 (2) | 2024.02.14 |
[ADsP] 1과목_01장. 데이터의 이해 (0) | 2024.02.14 |
[ADsP] Part3 오답 개념 정리 (0) | 2021.08.24 |
[ADsP] Part1 오답 개념 정리 (0) | 2021.08.12 |
댓글