[ADsP] 3과목_02장. 통계분석

BIG

3과목.
02장. 통계분석

(1) 측정과 척도
1. 개념
- 측정: 표본조사를 통해 추출된 원소들이나 주어진 목적에 적합하게 관측해 자료를 얻는 것
- 척도: 관측 대상의 속성을 측정하고 숫자로 나타나도록 일정한 규칙을 정해 바꾸는 도구

2. 척도의 종류
- 척도에 따라 분석 방법이 달라지기 때문에 나뉘어 짐

구분		특징	예시
질적 척도	명목척도	측정 대상이 어느 집단에 속하는지 나타내는 자료	성별, 지역 등
질적 척도	순서척도(서열척도)	측정 대상이 명목척도이면서 서열 관계를 갖는 자료	선호도, 신용도, 학년 등
양적 척도	구간척도(등간척도)	측정 대사이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료	온도, 지수 등
양적 척도	비율척도	측정 대상이 구간 척도이면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료	신장, 무게, 점수, 가격 등

(2) 기술 통계와 추리통계(추론통계)
- 기술 통계: 표본 자체의 속성이나 특징을 파악하는데 중점을 둔 데이터 분석 통계, 모집단의 특성을 유추하는 데 사용할 수 있음
ex) 데이터의 최솟값, 최댓값, 중위수 등

- 추리통계(추론통계): 수집한 데이터를 바탕으로 추론 및 예측하는 통계 기법, 표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는데 초점을 둠

*통계 기초 개념 '분산과 표준편차'
- 편차: 평균과의 차이
- 분산: 평균으로부터 얼마만큼 떨어져있는지를 숫자로 나타낸 분포/ 편차 제곱 합의 평균
- 표준편차: 분산에 루트를 씌운 값

(3) 확률
1. 독립사건과 배반사건
- 독립사건: 서로에게 영향을 주지 않는 두 개의 사건
- 배반사건: 두 사건에 대해 공통된 부분이 없는 사건, 동시에 일어날 수 없는 사건

2. 확률변수와 확률분포 그리고 확률함수
- 확률변수: 앞면일 경우 1, 뒷면일 경우 0이라는 실수값을 부여할 때, 실수값에 부여하는 변수
- 확률분포
1) 이산 확률 분포: 연속적이지 않은 것
2) 연속 확률 분포: 연속적인 것

(4) 이산확률분포
1. 베르누이 분포: 연속적이지 않고 셀 수 있는 확률
ex) 하나의 동전을 던져서 앞면이 나올 확률, 제비뽑기에서 당첨될 확률, 시험에 합격하거나 혹은 불합격 할 확률 등

2. 기하 분포: 성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
ex) 동전을 던져서 3번째에 앞면이 나올 확률, 주사위를 던져서 4번째에 1이 나올 확률, 제비뽑기를 복원 추출로 시행할 때 5번째에 당첨될 확률 등

(5) 연속확률분포
1. t-분포: 자유도가 n이며, 평균이 0이고 좌우고 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 가짐, 자유도가 커질수록 표준정규분포에 가까워짐

+) t-test(t-검정): t분포를 이용해 두 집단의 분산이 같은지 검정하는 것

(6) 추정과 가설 검정
1. 추정
- 모수 추정: 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들인 모수라고 함,
- 점추정:

2. 가설검정
- 가설검정의 개념: 통계적 가설검정은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정
- 귀무가설: 차이가 없다, 같다(=) 기호를 사용하여 나타낼 수 있는 가설
- 대립가설: 귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설

3. 제1종 오류와 제2종 오류
- 제1종 오류: 귀무가설이 사실인데 틀렸다고 결정하는 오류
ex) 사실은 죄가 없는데 유죄로 판결나는 경우

- 제2종 오류: 귀무가설이 사실이 아님에도 불구하고 귀무가설이 옳다고 결정하는 오류
ex) 사실은 죄가 있는데 무죄로 판결나는 경우

4. 기각역
- 기각역: 귀무가설을 기각하게 될 겅정통계량의 영역

5. 유의수준
- 유의수준: 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계

6. 유의확률
- 유의활률(p-value): 귀무가설을 지지하는 정도를 나타낸 확률

(7) 분산분석
- 분산분석 수행을 위한 세 가지 가정사항
1. 정규성: 각 집단의 표본들은 정규분포를 따라야 함.
2. 등분산성: 각 집단은 동일한 분산을 가져야 함
3. 독립성: 각 집단은 서로에게 영향을 주지 않음

(8) 교차분석
- 범주형 자료(명목, 서열)간의 관계를 알아보고자 할 때 사용되는 분석 방법

(9) 독립성 검정
- 모집단이 두 개의 변수에 의해 범주화됐을 때 두 변수들 사이의 관계가 독립적인지 아닌지 검정하는 것

(10) 중심극한정리
- 모집단의 분포와 상관없이 표본의 개수 n이 커질수록 표본평균의 분포는 정규분포에 가까워지는 현상

(11) 상관분석
- 두 변수 간의 선형적 관계가 존재하는지 알보는 분석 방법, 상관계수 사용
- -1과 +1사이의 값을 가지며 +1에 가까우면 강한 양의 상관관계가, -1에 가까우면 강한 음의 상관관계가 있다고 봄, 0에 가까울수록 상관관계가 존재하지 않는다고 봄

(12) 회귀분석
1. 의미
- 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계기법
- 독립변수와 종속변수 간에 인과관계가 있다는 말은 독립변수가 원인이 되어 종속변수에 영향을 미친다는 의미
- '독립변수=> 원인변수, 종속변수 => 결과변수' 라고도 함
- 독립변수가 하나면 단순선형회귀분석, 2개 이상이면 다중선형회귀분석

2. 회귀분석의 가정

선형성	독립변수와 종속변수가 선형적이어야 함
독립성	-단순회귀분석에서는 잔차와 독립젼수의 값이 서로 독립이어야 함 - 독립변수가 여러 개인 다중회귀분석인 경우에는 독립변수들 간에 상관성이 없이 독립이어야 함 - 만약 독립변수들 간에 상관성이 존재하는 경우 이를 다중공선성이라 함
등분산성	- 분산이 같다는 의미, 잔차들이 고르게 분포하고 있다는 의미 - 잔차의 중심에서 분산이 같아야 한다는 의미 - 이를 만족하지 못하면 회귀선은 어떤 추세를 띠지 못하고 덩어리(뭉친) 모양을 하게 됨
정규성	- 잔차항이 정규분포 형태를 띠는 것을 정규성르 만족한다고 함 - Q-Q Plot에서 잔차가 오른쪽으로 상승하는 형태를 띠면 정규성을 만족한다고 판단

(13) 단순선형회귀분석
1. 회귀계수의 추정
① 최소제곱법으로 회귀계수 추정
- 단순선형회귀 그래프는 일차함수 그래프임(y = ax+b)
- 최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것
- 최소제곱법: 실제 관측치와 추세선에 의해 예측된 점 사이의 거리(오차를 제곱해 더한 값을 최소화)
- SST(총제곱합): SSE와 SSR을 더한 전체
- SSE(오차제곱합): 모형이 설명하지 못하는 부분
- SSR(회귀제곱합): 모형이 설명하는 부분

2. 회귀분석모형의 적합성
① 단순선형회귀분석의 분산분석표

요인	제곱 합	자유도	제곱평균	F
회귀	SSR	1	MSR=SSR	MSR/MSE
잔차	SSE	n-2	MSE=SSE/(n-2)
총	SST=SSR+SSE	n-1

②회귀모형의 통계적 유의성 검증
- 이는 F-검정을 통해 확인함
- F-검정은 분산의 차이를 확인할 때 사용되는데, 바로 이 분산의 차이가 크다는 것은 회귀모형에서 회귀계수가 크다는 의미를 가짐
- F값이 크면 '0'에서 얼마나 가까운지 확률적으로 측정한 값인 P 값은 상대적으로 작아짐

* 회귀분석 결과의 해석
추정/표준오차 = t value

(14) 다중공선성 246
1. 개념

2. 다양한 다중 공선성 문제 해결법

(15) 다중선형회귀분석의 예

(16) 최적 회귀방정식
1. 개념

2. 최적의 회귀방정식을 도출하기 위한 방법

(17) 변수 선택에 사용되는 성능지표
①벌점화(penalty) 방식의 AIC와 BIC
② AIC
③ BIC
④ 멜로우 Cp

(18) 단계적 변수 선택법
1. 전진선택법(forward selection)

2. 후진제거법(backward elimination)

3. 단계별 방법(stepwise method)
* 실제로 제일 많이 쓰임

(19) 고급 회귀분석
1. 정규화 선형회귀
① 과적합과 과소적합
- 모델이 학습 데이터를 과하게 학습하는 것
- 일반화 성능이 낮아져 이미 학습한 훈련용 데이터에 대한 성능은 높게 나오지만, 아직 학습하지 않은 테스트 데이터에 대한 성능은 낮게 나옴

② 정규화 선형회귀의 종류
1) 라쏘

2) 릿지

3) 엘라스틱넷

(20) 일반화 선형회귀
① 일반화 선형회귀의 개념
- 회귀분석은 종속변수가 정규분포를 따른다는 정규성을 전제로 함

② 일반화 선형회귀의 종류
1) 로지스틱 회귀(Logistic regression)
- 로지스틱 회귀는 종속변수가 범주형 변수(0 또는 1, 합격/불합격, 사망/생존 등)인 것
- 종속 변수와 독립 변수 간의 관계를 나타내어 예측 모델을 생성한다는 점에서 선형 회귀 분석 방법과 동일

2) 포아송 회귀(Poisson regression)

(21) 더빈 왓슨(Durbin-Watson) 검정
- 오차항이 서로 연관성이 없어야 함 -> 회귀분석에서의 오차항의 공분산은 '0'임
- 연관성이 있다면 회귀분석이 아니라 시계열 분석이나 다른 분석방법을 수행해야 함
- 회귀분석에 있어 자기상관성이 존재하는지(오차항이 독립성을 만족하는지=오차항이 서로 연관성이 없는지)검정하는 방법

[회귀분석 평가 지표 비교] 259

(22) 다차원 척도법(MDS, Multidimentsional Scaling) - 264그래프
- 떨어져 있는 것끼리 다른 부류의 과일이므로 그들끼리 그룹을 이룸

(23) 주성분분석(PCA) - 267 그래프(주성분의 개수 4개)
1. 개념
- 여러 개의 변수 중 서로 상관서이 높은 변수들의 선형 결합으로 새로운 변수(주성분)을 만들어 기존 변수를 요약 및 축소하는 분석 방법

2. 주성분분석의 목적
- 변수를 축하여 모형의 설명력을 높임
- 다중공선성 문제를 해결
- 군집분석 시 모형의 성능을 높일 수 있음
- IoT 센서 데이터를 주성분분석 후 스마트팩토리에 활용
- 주성분분석 시 선형변환이 필요함

(24) 시계열 분석
1. 시계열 자료의 예: 주식

2. 시계열 자료의 자기상관성
-

3. 시계열 자료의 정상성 조건
① 일정한 평균
② 일정한 분산
③ 시차에만 의존하는 공분산

4. 자기상관계수
① 자기상관계수(ACF: Autocorrelation Function)
- 시간의 흐름에 따른 자기상관관계
- 두 시계열 확률변수 간의 상관관계
- 어떤 특정한 시점이 아니라 '시간의 흐름'에 따른 변수 간의 상관관계 변화임

② 부분자기상관계수(PACF: Partial Autocorrelation Function)
- 두 시계열 확률변수 간에 다른 시점의 확률변수 영향력은 통제하고 상관관계만 보여줌

5. 시계열 모형
① 자기회귀(AR: autoregressive) 모형 (278 그래프)

② 이동평균(MA: Maoving Average) 모형(278 그래프)
- 이전 시점의 백색잡음들이 선형 결합

③ 자기회귀누적이동평균(ARIMA: Autoregressive Integrated Moving Average)모형(279 그래프랑 글 읽어보기)
- 비정상 시계열 자료를 다룰 수 있는 모형

(25) 분해 시계열
- 시계열은 추세요인, 계절요인, 순환요인, 불규칙요인 등으로 구성하는데 이들이 서로 복잡하게 혼합되어 하나의 시계열 데이터를 구성함

[시계열의 구성요소]
1. 추세요인
2. 순환요인
3. 계절요인
4. 불규칙요인

저작자표시 비영리 동일조건 (새창열림)

'🖊️Certificate > 📌ADsP' 카테고리의 다른 글

[ADsP] 3과목_03장. 정형 데이터 마이닝 (0)	2024.02.20
[ADsP] 2과목_02장. 분석 마스터 플랜 (0)	2024.02.19
[ADsP] 2과목_01장. 데이터 분석 기획의 이해 (0)	2024.02.19
[ADsP] 1과목_02장. 데이터의 가치와 미래 (2)	2024.02.14
[ADsP] 1과목_01장. 데이터의 이해 (1)	2024.02.14

뭐든 '빛나고요'의 Daily Record📷

[ADsP] 3과목_02장. 통계분석

'🖊️Certificate > 📌ADsP' 카테고리의 다른 글

댓글

티스토리툴바

[ADsP] 3과목_02장. 통계분석

'🖊️Certificate > 📌ADsP' 카테고리의 다른 글

관련글

댓글

티스토리툴바