본문 바로가기
🖊️Certificate/📌ADsP

[ADsP] 3과목_03장. 정형 데이터 마이닝

by 빛나고요 2024. 2. 20.
BIG

3과목. 데이터 분석

03장. 정형 데이터 마이닝

(1) 데이터 마이닝 개요

1. 데이터 마이닝의 의미
- 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측 하거나 의사결정에 활용하는 것을 목적으로 함
 
2. 데이터 마이닝의 종류
① 데이터 마이닝 방법에 따른 분류
- 지도학습: 정답이 있는 데이터를 활용해 분석 모델을 학습 시키는 것
- 비지도학습: 정답을 알려주지 않고 학습하는 것
 
[지도학습과 비지도학습]

지도학습(정답 있음)비지도학습(정답 없음)
회귀(연속형)선형회귀분석(Linear Regression)
의사결정나무(회귀트리모형)
SVR(Support Vector Regression)
신경망 모형
릿지(Ridge)
라쏘(Lasso)
군집K-means
SOM
DBSCAN(밀도 기반 군집)
병합 군집
계층 군집
연관Apriori
분류(범주형)로지스틱 회귀분석
신경망 모형
의사결정나무(분류트리모형)
k-NN(k-최근접 이웃 알고리즘)
앙상블모형
SVM(Support Vector Machine)
나이브 베이즈 분류
차원 축소PCA(주성분분석)
LDA(선형판별분석)
SVD(특잇값 분해)
MDS(다차원 척도법)

 
데이터 마이닝 분석 목적에 따른 분류
- 분류(classification) 분석
- 군집(Clustering) 분석
- 연관(Association) 분석
 
3. 데이터 마이닝의 프로세스
[모형 선정 프로 차트]  288  매우 중요
 

(2) 데이터 분할

1. 데이터 분할의 이해
① 데이터 분할
- 데이터 마이닝 기법을 적용하기 전에 훈련용(train, 50%), 검정용(validation, 30%), 평가용(test, 20%)의 세 가지 데이터로 분할함
 
② 과대적합과 과소적합
- 과대적합과 과소적합을 방지하기 위해 릿지(Ridge), 라쏘(Lasso), 엘라스틱넷(Elastic Net) 회귀 모형을 사용함
 
2. 데이터 분할을 통한 검증
- 데이터 마이닝 적용 전 과대적합과 과소적합을 방지하기 위해 아래의 방법으로 검증을 시행함
① 홀드아웃
② K-Fold 교차검증(cross-validation)
③ 붓스트랩
④ 계층별 k-겹 교차 검증(Stratified k-fold cross validation)
⑤ 오버샘플링 & 언더샘플링
 

(3) 분류 분석

1. 로지스틱 회귀분석
- 의미: 종속변수가 범주형 변수일 때 사용 가능
- 로지스틱 회귀분석의 변수
  * 일반적인 로지스틱 회귀분석: 종속변수가 속할 수 있는 집단이 두 개로 이진 분류임
  * 다중 로지스틱 회귀분석 : 세 개 이상의 집단을 분류하는 경우
  * 독립변수가 연속형이면서 종속변수가 범주형일 때 가능
  * 독립변수가 어떤 값을 가지든 상관없이 종속변수는 확률값을 가짐
 
2. 로지스틱 회귀분석의 알고리즘
① 오즈(Odds)
- 성공할 확률이 실패할 확률의 몇 배인가를 의미
- 오즈=성공/실패
 
② 로짓변환
- 오즈에 로그값을 취한 것
 
③ 시그모이드 함수
- 로짓 함수와 역함수 관계
 
3. 로지스틱 회귀분석 예시(297-300 네모안 읽기)
 
 
(4) 의사결정나무
1. 의사결정나무 개요
- 자료를 학습하여 특정 분리 규칙을 찾아내고, 그에 따라 몇 개의 소집단으로 분류하는 방법
- 비지도학습
 
2. 구성 요소
- 종속변수가 연속형인 회귀트리와 종속변수가 이산형인 분류트리로 구분
 
3. 특징

장점단점
모델이 직관적이고 해석이 용이
데이터 정규화 및 단위 변환 필요 없음
다른 기법에 비해 전처리 작업 어렵지 않음
이산형 변수, 연속형 변수 둘다 적용 가능
데이터 선형성, 정규성 등 가정이 불필요
이상값에 민감하지 않음
독립변수들 사이의 중요도 판단하기 쉽지 않음
분류 경계선 근처의 자료에 대해 오차가 큼
과적합 발생 가능성 높음

 
4. 분석 과정
[분리 기준] (303표)
 
 
[지니 지수 계산] (304 참고)
 
5. 예시 (305 네모)
 
(5) 앙상블 분석
- 여러 모델을 결합하는 것
- 배깅(bagging),  부스팅(boosting), 랜덤 포레스트(random forest)
- 알고리즘을 여러 개 섞어서 씀
 
1. 배깅
- Bootstrap Aggregating 의 줄임말
- 훈련용 데이터를 집계하는 알고리즘
 
2. 부스팅
- XGBoost
- Light GBM
- 여러 개의 모형을 구축한다는 점에서 배깅과 유사하지만 독립적이지 않음
 
3. 랜덤 포레스트
- 무작위성을 주는 분석 기법
 
(6) 인공신경망 분석
1. [인공신경망 분석의 장단점]

장점잡음에 민감하게 반응하지 않음
비선형적인 문제를 분석하는 데 유용함
패턴인식, 분류, 예측 등의 문제에 효과적
스스로 가중치를 학습하므로 다양하고 많은 데이터에 효과적
단점모형이 복잡할 경우 학습에 오랜 시간 소요
초기 가중치에 따라 전역해가 아닌 지역해로 수렴할 수 있음
추정한 가중치의 신뢰도가 낮음
결과에 대한 해석이 쉽지 않음
은닉층의 수와 은닉 노드의 수를 결정하기 어려움

 
2. 인공신경망의 알고리즘
① 활성함수의 종류
1) Step 함수
2) Sigmoid 함수
3) Sign 함수
4) tanh 함수
5) ReLU 함수
6) Softmax 함수
 
3. 인공인경망의 계층 구조
- 은닉층의 의미
- 은닉층의 역할
- 은닉층의 중요성
 
4. 인공신경망 학습(역전파 알고리즘)
- 인공신경망의 학습과정
1) 순전파 알고리즘
2) 오차 발생
3) 가중치 업데이트
4) 역전파 알고리즘
 
5. 인공신경망의 종류
① 단층 퍼셉트론(단층 신경망)
- 입력층이 은닉층을 거치지 않고 바로 출력층과 연결
- 다수의 입력값을 받아 하나의 출력값을 출력하는데 이 출력값이 정해진 임곗값을 넘었을 경우 1을 출력하고 넘지 못했을 경우 0을 출력
 
다층 퍼셉트론(다층 신경망)
- 입력층, 출력층, 다수의 은닉층으로 이루어져 있음
- 단층 퍼셉트론보다 학습하기 어려우며 너무 적은 은닉층과 은닉 노드는 과소적합 문제가 발생하기 때문에 적절한 노드의 수를 찾아야 함
 
* 다양한 인공 신경망 구조
- RNN: 순환 신경망/ 입력의 데이터는 은닉층을 통해 출력층으로 가지만 은닉층의 결괏값이 다음 입력 데이터가 입력될 때 자신에게 영향을 주는 신경망/ 언어 모델링, 음성 인식 등에 활용/ 시간적으로 오래된 데이터에 대한 문맥 처리가 어려움
- CNN: 합성곱 신경망/ 이미지 분류 및 다중객체탐지(Multi Object Detection)에 뛰어남/ 합성곱과 풀링으로 구성
- GAN: 생산적 적대 신경망/ 분류 모형으로부터 최적의 결과를 얻을 수 있도록 유도하는 학습/ 페이스북의 딥 페이스
 
(7) 나이브베이즈 분류
1. 베이즈 이론(베이지안 확률) 개념
- 빈도 확률은 객관적으로 확률을 해석하고 베이지안 확률은 주관적으로 확률을 해석함
 
2. 나이브 베이스 분류
- 개념: 베이즈 정리를 기반으로 한 지도학습 모델/ 스팸 메일 필터링, 텍스트 분류 등에 사용
 
(8) k-NN 알고리즘
1. k-NN(k-Nearest Neighbor) 알고리즘의 원리
- 정답 라벨이 없는 새로운 데이터를 입력 받았을 때, 그 데이터로부터 가장 가까이 있는 데이터의 정답 라벨을 확인하여 새로운 데이터의 정답 라벨을 결정( 1, 2, 3, 4 중 2가 고양이 사진이면 1, 3도 고양이 사진일 확률이 높을 것이다)
- k 값이 무엇이고 어떻게 정하는지가 관건임
 
(9) 서포트벡터머신
- 서포트벡터머신(SVM: Support Vector Machine): 지도학습에 주로 이용/ 특히 분류 성능이 뛰어나 분류 분석에 주로 사용
- 초평면(hyper-plane)을 이용하여 카테고리를 나눔
 
(10) 분류 모형 성과 평가(< 계산문제 )
1. 오분류포: ( 323 [오분류포 & 평가 지표
  1) 정분류율=정확도
  2) 오분류율
  3) 민감도=재현율
  4) 특이도

  5) 정밀도
  6) F1 Score  ★★★
  7) 거짓 긍정률
 
2. ROC 커브
[ROC 커브] (325 그래프)
그래프1: AUC=1 => 모형의 성능이 엄청 좋음
그래프2: 모형의 성능이 보통임
 
3. 이익도표
- 0.5에서 cut-off하며, 1.0이 가장 높은 기준이 됨
  [이익도표] (327 표랑 그 위에 사진)
- 랜덤 모델의 예측력 계산법
- 향상도 계산법
 
4. 향상도곡선 (328 네모 안에 그래프)
- 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 구간 별로 파악하기 위한 그래프
- 좋은 모델일수록 큰 값에서 시작하여 급격히 감소함
 
(11) 군집분석
1. 개요
- 여러 변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석(상관분석, 회귀분석, 주성분분석)을 활용하여 각 군집에 대한 특징을 파악하는 기법
 
2. 거리 측도
① 변수가 연속형인 경우(두개 비교하는 문제)
  1) 유클리디안 거리: 두 점 사이의 거리 계산 방법/ 두점 사이의 가장 짧은 거리를 계산 
  2) 맨하트 거리: 두 점 사이를 가로지르지 않고 길을 따라 갔을 때의 거리/ 최단거리
 
[연속형 변수와 범주형 변수의 대표적인 거리 측도 계산](공부 안해도 됨)
 
3. 계층적 군집분석
- [덴드로그램을 통한 계층 구조 시각화]
줄을 그어서 몇개가 만나는지가 몇개의 군집으로 나누는지 정해지는 것
- 군집 간의 거리(336 공부 안해도 됨)
 
4. 비계층적 군집분석
① k-means 군집의 방법
- 순서
  1) 군집의 수 K의 초깃값을 설정하고 각각의 K를 설명할 변수의 값을 임의로 설정하거나 데이터 중에서 K 개를 선택함. 이때 임의로 설정된 K개의 데이터를 seed라고 함
  2) 각 데이터를 가장 가까운 seed로 할당
  3) 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 seed를 설정
  4) 새로운 seed를 중심으로 군집을 재할당함 
  5) 각 군집의 중심이 변하지 않을 때(모든 데이터가 이상적으로 군집화될 때)까지 위 3, 4번 과정 반복
 
DBSCAN(Density Based Spatial Clustering of Applications with Noise)
- 밀도 기반 군집분석의 한 방법
 
5. 혼합 분포 군집
- EM 알고리즘(EM, Expectation Maximization): 확률모델의 최대가능도를 갖은 모수와 함께 그 확률모델의 가중치를 추정하고자 함 
 
(12) 자기조직화지도(SOM) (의미만 알고있기)
- =코호넨 맵
- 인공신경망 기반 차원 축소와 군집화를 동시에 수행할 수 있는 알고리즘
- SOM 알고리즘: 고차원 데이터를 한눈에 파악하기 쉬운 저차원 공간에 정렬하여 나타내는 시각화 방법
 
(13) 연관분석(계산문제 360)
- 연관분석 측도 계산: 향상도나 신뢰도 계산을 할 수 있어야 함

댓글