Study. ADsP
Part1. 데이터의 이해
지식경영의 핵심 이슈
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 한다.
구분 | 의미 | 예 | 특징 | 상호작용 |
암묵지 | 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 | 김장김치 담그기, 자전거 타기 | 사회적으로 중요하지만 다른 사람에게 공유되기 어려움 | 공통화, 내면화 |
형식지 | 문서나 매뉴얼처럼 형상화된 지식 | 교과서, 비디오, DB | 전달과 공유가 용이함 | 표출화, 연결화 |
DIKW의 정의
구분 | 내용 |
데이터 | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 |
정보 | 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것 |
지식 | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것 |
지혜 | 지식의 축적과 아이디어가 결합된 창의적인 산물 |
CRM(Customer Relationship Management)
- 고객관계관리
- 기업이 고객과 관련된 내·외부 자료를 분석·통합해 고객 중심 자원을 극대화하고 고객 특성에 맞게 마케팅 활동을 계획·지원·평가하는 과정
SCM(Supply Chain Management)
- 공급망 관리
- 기업에서 원재료의 생산·유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것
ERP(Enterprise Resource Planning)
- 인사·재무·생산 등 기업의 전 부문에 걸쳐 운영되던 시스템의 경영자원을 하나로 통합하고 재구축하여 생산성을 극대화하는 경영혁신기법
KMS(Knowlege Management System)
- 지식관리시스템
- 기업의 환경이 산업사회에서 지식사회로 이동함에 따라 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근방식
빅데이터가 만들어내는 본질적인 변화
[과거에서 현재로의 변화]
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
플랫폼형 비지니스 모델
- 상품, 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 비지니스 모델은?
데이터의 가치를 측정하기 어려운 이유
- 데이터의 활용 방식 : 재사용, 재조합, 다목적용 개발
- 새로운 가치 창출
- 분석 기술 발전
SQL의 집계 함수
함수명 | 설명 | 유형별 가능 여부 |
AVG | 지정한 열의 평균 값을 반환 | 수치형 |
COUNT | 테이블의 특정 조건이 맞는 것의 개수를 반환 | 수치형, 문자형 |
SUM | 지정한 열의 총합을 반환 | 수치형 |
STDDEV | 지정한 열의 분산을 반환 | 수치형 |
MIN | 지정한 열의 가장 작은 값을 반환 | 수치형 |
MAX | 지정한 열의 가장 큰 값을 반환 | 수치형 |
개인정보 비식별 기술
비식별 기술이란 데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대체하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술
① 데이터 마스킹
: 데이터 길이, 유형, 형식과 같은 속성을 유지하여 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
ex) 이길동, 22세, 대구 거주, 대구대 재학 → 이**, 22세, 대구 거주, **대 재학
② 가명처리
: 개인 식별에 중요한 데이터를 식별할 수 있는 다른 값으로 변경하는 기술
다른 값으로 대체 시 일정한 규칙이 노출되지 않도록 주의
ex) 이길동, 22세, 대구 거주, 대구대 재학 → 김동길, 33세, 서울 거주, 서울대 재학
③ 총계처리
: 데이터 총계합을 보임으로서 개별 데이터의 값을 보이지 않도록 하는 기술
특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인정보를 공개하는 것과 동일한 결과임으로 주의
ex) 이길동 180cm, 김동길 160cm, 부속성 170cm, 정공개 170cm
→ 4명 키 합 : 680cm 평균 키 : 170cm
④ 데이터 값 삭제
: 데이터 공유, 개발 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인 식별에 중요한 값을 삭제
개인과 관련된 날짜 정보(자격 취득일자, 합격일, 출생일 등)는 연단 위로 처리
ex) 이길동, 22세, 대구 거주, 대구대 재학
→ 22세, 대구 거주
⑤ 데이터 범주화
: 데이터의 값을 범주(동일한 성질을 가진 부류나 범위)의 값으로 변환하여 값을 숨김
ex) 이길동, 22세
→ 이 씨, 20~29세
빅데이터 활용 기본 테크닉 7가지
테크닉 | 내용 | 예 |
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 상요자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 | 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정택에 대한 고객의 평가는 어떤가? |
소셜네트워크분석(=사회관계망분석) | 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 | 고객들 간 관계망은 어떻게 구성되어 있나? |
빅데이터 시대의 위기 요인
① 사생활 침해
: 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회·경제적 위협으로 변형될 수 있다.
ex) 여행 사실을 업로드한 사람의 집을 강도가 노리는 고전적 사례 발생 → 익명화 기술 발전 필요
② 책임 원칙 훼손
: 빅데이터의 기본 분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다.
ex) 영화 ' 마이너리티 리포트'에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포,
자신의 신용도와 무관하고 부당하게 대출이 거절됨
→ 민주주의 국가의 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻고 있음
③ 데이터 오용
: 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다.
ex) 베트남 전쟁 때, 맥나라마 장군은 적군 사망자 수를 전쟁의 진척상황을 나타내는 지표로 활용했고 그 결과 적군 사망자 수는 과장돼 보고되는 경향을 보여 결과적으로 전쟁 상황을 오보하는 결과를 일으켰음
데이터베이스 관리시스템 종류
구분 | 내용 |
관계형 DBMS | 데이터를 컬럼과 로우를 이루는 하나 이상의 테이블로 정리하며 고유키가 각 로우를 식별함 |
객체지향 DBMS | 객체지향DB는 일반적으로 사용되는 테이블 기반의 관계형DB와 다르게 정보를 '객체' 형태로 표현하는 데이터베이스 모델 |
네트워크 DBMS | 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델 |
계층형 DBMS | 트리 구조를 기반으로 하는 계층 데이터베이스 모델 |
데이터 사이언스의 영역
영역 | 종류 |
분석적 영역 | 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등 |
데이터 처리와 관련된 IT영역 | 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅 |
비지니스 컨설팅 영역 | 커뮤니티케이션, 프레젠테이션, 스토리텔링, 시각화 등 |
데이터웨어하우스(Data Warehouse)
: 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합
데이터 레이크
: 조직에서 누구나 분석할 때 필요한 모든 원시 데이터를 저장하는 단일 저장소를 갖는 것
'🖊️Certificate > 📌ADsP' 카테고리의 다른 글
[ADsP] 2과목_01장. 데이터 분석 기획의 이해 (0) | 2024.02.19 |
---|---|
[ADsP] 1과목_02장. 데이터의 가치와 미래 (2) | 2024.02.14 |
[ADsP] 1과목_01장. 데이터의 이해 (0) | 2024.02.14 |
[ADsP] Part3 오답 개념 정리 (0) | 2021.08.24 |
[ADsP] Part2 오답 개념 정리 (0) | 2021.08.16 |
댓글