본문 바로가기
🖊️Certificate/📌ADsP

[ADsP] 1과목_02장. 데이터의 가치와 미래

by 빛나고요 2024. 2. 14.
BIG

1과목. 데이터 이해
02장. 데이터의 가치와 미래
01. 빅데이터의 이해
(1) 더그 레니의 3V
- 데이터의 양(Volume)
- 데이터의 유형(Variety)
- 데이터의 생성 및 처리 속도의 증가(Velocity)

(2) 4V
- Value(가치): 데이터 전체의 파악과 패턴을 파악하기 어렵게 되면서 가치의 중요성이 강조됨
- Veracity(정확성): 빅데이터 기반의 예측 분석 결과에 대한 신뢰성이 중요하게 되었음

➢ Value 혹은 Veracity가 3V에 포함되어 4V로 설명하기도 함

(3) 빅데이터의 출현 배경이 된 기술
- 고객 데이터 축적 및 활용 증가(CRM의 확대)
- 인터넷 확산
- 무선통신의 발전(5G)
- 모바일 생태계 호가산
- 스마트폰의 보급 확대
- 저장 기술의 발전과 메모리 가격 하락
- 클라우드 컴퓨팅 기술 발전
- SNS 확대
- IoT증가
- 데이터 분석 툴의 발전

(4) 빅데이터의 기능과 변화
- 산업혁명의 석탄 · 철: 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 · 경제 · 문화 · 생활 전반에 혁명적 변화를 가져올 것으로 기대됨
- 21세기 원유: 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 그리고 경제 성장에 피룡한 정보를 제공하여 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것으로 기대됨
- 렌즈: 렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼, 렌즈처럼 산업 발전에 큰 영향을 줄 것으로 기대(사례: 구글의 Ngram Viewer)
- 플랫폼: 플랫폼으로서 다양한 서드파티 비즈니스에 활용될 것으로 기대

(5) 빅데이터가 만들어내는 변화
- 사전처리 ➪ 후처리
- 표본조사 ➪ 수조사
- 질 ➪
- 인과관계 ➪ 관관계

(6) 빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식: 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되며 특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없기에 가치 산정이 어려움
- 가치 창출 방식: 빅데이터는 기존에 없던 새로운 가치를 창출하기에 그 가치를 산정하기 어려움
- 분석 기술의 발전: 데이터 분석 기술의 발전으로 가치있는 데이터와 가치 없는 데이터의 경계를 나누기 어려움

(7) 7가지 빅데이터 활용 기본 테크닉
➊ 연관 규칙 학습( Association rule learning)
- 연관분석 혹은 장바구니 분석으로도 불림
- 고객이 구매한 물품들을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법
ex)
· A를 구매한 사람이 B를 더 많이 사는가?
· 이것을 구매한 사람들이 많이 구매한 물품은?
· 장바구니 분석
· 상품 추천

➋ 유형분석(Classification tree analysis)
- 새로운 사건이 속할 범주를 찾아내는 방법
- ‘이 사용자가 어떤 특성을 가진 집단에 속하는가’와 같은 문제를 해결하는 방법
ex)
· 문서를 어떻게 분류할 것인가?
· 조직을 어떻게 여러 그룹으로 나눌 것인가?
· 온라인 수강생들의 특성을 반영하여 어떻게 분류할 것인가?

➌ 유전 알고리즘(Genetic algorithms)
- 최적화가 필요한 문제의 해결책을 매커니즘을 통해 점진적으로 진화시켜 나가는 방법
- ‘최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가’와 같은 문제를 해결하는 방법
ex)
· 최적화된 택배 차량 배치, 최고의 시청률을 내기위한 방송 프로그램 배치
· 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가
· 연비가 좋은 자동차를 개발하기 위해 원자재와 엔지니어링을 어떻게 결합하는 게 좋을까

➍ 기계학습=머신러닝(Machine learning)
- 컴퓨터가 데이터로부터 규칙을 찾으면 그 규칙을 활용하여 예측하는데 초점을 둔 방법
- ’기존 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고 싶어 할까‘와 같은 문제를 해결하는 방법
ex)
· 유튜브 및 넷플릭스의 미디어 추천 시스템
· 스팸메일 필터링
· 질병 진단 예측

➎ 회귀분석(Regression analysis)
- 독립변수를 조작하면서 종속변수가 어떻게 변하는지 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
- ’구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가‘와 같은 문제를 해결할 때 사용
ex)
· 사용자의 만족도가 충성도에 어떤 영향을 미치는가
· 이웃들과 그 규모가 집값에 어떤 영향을 미치는가
· 상품가격은 매출에 어떤 영향을 미치는가

➏ 감정분석(Sentiment analysis)
- 비정형 데이터 마이닝의 대표적인 기법으로 단어를 추출하고 그 단어의 긍정, 부정을 선별하여 글쓴이의 감정을 분석하는 방법
- ’새로운 환불 정책에 대한 고객의 평가는 어떤가‘와 같은 문제를 해결할 때 사용
ex)
· 호텔에서 고객의 후기를 분석하여 고객의 니즈를 찾아냄
· 제품의 사용기에 나타난 고객의 감정은 어떠한가

➐ 소셜 네트워크 분석(SNA: Social Network Analysis)
- SNS에서 팔로워, 팔로잉 관계를 분석한 후 영향력 있는 사람을 찾아내 기업의 효율적인 마케팅이나 범죄 수사에 공범을 찾는 등 다양한 분야에서 활용
- 오피니언 리더(영향력 있는 사람)을 찾아낼 수 있으며, 고객 간 소셜 관계 파악 가능
ex)
· 도시계획 및 지리학 분야에서 SNA를 활용하여 도시공간분석에 이용
· 특정인과 다른 사람이 몇 촌 정도의 관계인가
· 이 사람이 어느 정도 영향력 있는 인플루언서인가

(8) 빅데이터의 위기 요인과 통제 방안
[위기요인]
➊ 사생활 침해
- 개인의 사생활 침해 위협을 넘어 사회 · 경제적 위협으로 변형될 수 있음
- 익명화 기술이 발전되고 있지만 아직 충분하지 않음 ➪ 정보가 오용될 때 위협의 크기는 매우 큼

➋ 책임 원칙 훼손
- 빅데이터 기반 분석과 예측 기술이 발전하며 정확도 증가 ➪ 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 증가
- 빅데이터 시스템에 의해 부당하게 피해보는 상황을 최소화할 장치 마련 필요
ex)
· 신용카드 발급 여부 판단에 있어 불이익 발생

➌ 데이터 오용
- 데이터 과신 혹은 잘못된 지표 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생할 수 있음
ex)
· 적군의 사망자 수로 전쟁의 승리를 예측하는 오류

[통제방안]
➊ 사생활 침해의 통제 방안 ➪ ’동의‘에서 ’책임‘으로
- 개인정보 제공자의 ’동의‘를 통해 해결하기보다 개인정보 사용자의 ’책임‘으로 해결

➋ 책임 원칙 훼손의 통제 방안 ➪ 결과 기반 책임 원칙 고수
- 특정인의 ’성향‘에 따라 처벌하는 것이 아닌 ’행동 결과‘를 보고 처벌

➌ 알고리즘 접근 허용
- 데이터가 어떻게 사용되어 어떤 이유로 피해자가 발생하게 되었는지 알고리즘을 통해 피해자를 구제할 수 있음

(9) 일차원적 분석(산업별)
- 금융 서비스: 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
- 에너지: 트레이딩, 공급/수요 예측
- 병원: 가격 책정, 고객 로열티, 수익 관리
- 정부: 사기탐지, 사례관리, 범죄방지, 수익 최적화

(10) 데이터 사이언티스트에게 요구되는 역량
- 하드 스킬(Hard skill)
· 빅데이터에 대한 이론적 지식: 관련 기법에 대한 이해와 방법론 습득
· 분석 기술에 대한 숙련: 최적의 분석 설계 및 노하우 축적

- 소프트 스킬
· 통찰력 있는 분석: 창의적 사고, 호기심, 논리적 비판
· 설득력 있는 전달: 스토리텔링, 시각화
· 다분야 간 협력: 커뮤니케이션

- 가트너가 제시한 데이터 사이언티스트 요구 역량
· 데이터 관리: 데이터에 대한 이해
· 분석 모델링: 분석론에 대한 지식
· 비즈니스 분석: 비즈니스 요소에 초점
· 소프트 스킬: 커뮤니케이션 협력, 리더십, 창의력, 규율, 열정

댓글