1장. 빅데이터의 이해
1. 데이터
- 관념적이고 추상적인 개념(과거) → 기술적이고 사실적인 의미
- 추론과 추정의 근거를 이루는 사실
- 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것
6. DIKW
- 데이터 : 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실, 존재 형식 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 자료
- 정보 : 데이터 가공 및 상관관계 간 이해를 통해 패턴 인식하고 그 의미 부여한 것, 지식 도출하기 위한 재료
- 지식 : 데이터 통해 도출된 다양한 정보를 구조화해 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것, 상호 연결된 정보 패턴 이해해 이를 토대로 예측한 결과물
- 지혜 : 근본 원리에 대한 깊은 이해 바탕으로 도출되는 창의적 아이디어
7. 지식
ex) 홍보 및 사은행사를 통해 많은 고객 유치해 올해 매출은 증가할 것으로 예상 → 지식
ex) A 마트보다 상대적으로 저렴한 B마트에서 물을 사야겠다.
9. DB
- 중복X
- 공용, 통합, 저장, 변화
10. DB
- 정보 관리 측면 : 정보를 일정한 질서와 구조에 따라 정리, 저장, 검색, 관리할 수 있도록 해 방대한 양의 정보를 체계적으로 축적하고 새로운 내용의 추가나 갱신이 용이
- 정보 이용 측면 : 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음
- 정보 축적 및 전달 측면 : 일정한 형식 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있다, 정보통신망을 통해 원거리에서도 즉시 온라인 이용 가능
11. 80s 기업내부 DB
- OLTP : 질의 결과 예측 가능
- OLAP : 질의 결과 예측하기 어렵, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터 접근해 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술
13. 제조부문 DB
- EAI : 기업 내 상호 연관된 모든 애플리케이션을 유기적으로 연동해 필요한 정보를 중앙집중적으로 통합, 관리, 사용할 수 있는 환경을 구현
- BI(비즈니스 인텔리젼스) : 기업이 보유하고 있는 수많은 데이터 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스
15. 지리/교통 부문의 DB
- GIS
- GPS
- LBS
*NEIS : 교육부문 DB
16. DB 관련 시스템
- OLAP : 다차원의 데이터를 대화식으로 분석하기 위한 소프트 웨어
- RTE : 회사의 주요 경영정보를 통합관리하는 실시간 시업의 새로운 기업경영시스템
- RFID : 주파수 이용해 ID 식별하는 시스템
19. 관점에 따른 빅데이터 정의
- 빅데이터를 정의할 때는 데이터 자체 뿐 아니라 데이터 처리 및 분석 기술의 변화를 포함해 정의
- 광의의 관점에서 보면, 새로운 인재 및 조직 변화의 의미를 포함해 정의할 수 있다.
- 여러 관점에서 빅데이터 정의함으로써 기존의 정의에서는 얻을 수 없던 통찰 및 가치를 창출할 수 있다.
- 협의의 관점에서 보면, 빅데이터는 4V로 요약되는 데이터 자체의 특성 변화에 초점을 맞추어 정의할 수 있다.
20. 전통적 데이터 분석 vs. 오늘날의 빅데이터 분석
- 전통적 데이터 분석 : 조직 내부 DB 분석 중심
- 빅데이터 분석 : 웹 및 SNS 등의 외부 데이터 활용한 분석으로 데이터 확장이 되고 있다.
- 전통적 데이터 분석에 비해 빅데이터 분석은 분석 대상 데이터의 규모가 확대되고 있다
- 전통적 데이터 분석은 정형데이터 분석 중심
- 데이터 양이 많다고 해서 더 많은 지식과 정보가 있다고 할 수 없다.
24. 빅데이터로 인한 변화
: 데이터 기반 상관관계 분석이 주는 인사이트가 인과관계에 의한 예측을 점점 더 압도하는 시대가 도래할 것으로 전망
26. 빅데이터 투입 가치와 관련해서 Gartner가 데이터를 표현한 단어
: 21세기 원유, 미래의 경쟁 우위 결정
28. 빅데이터 가치 산정이 어려운 이유
- 분석 기술의 발전으로 현재는 가치 없는 데이터라도 추후 거대한 가치를 지닌 데이터가 될 수 있기 때문
- 빅데이터 전문인력의 증가와 가치산정과는 관련이 없다.
29. 데이터 산업 진화 순서
: 처리 > 통합 > 분석 > 연결 > 권리
30. 데이터 산업의 진화
- 데이터 통합 시대 : 축적되기 시작한 데이터들의 일관성 확보하고 무결성 유지하기 위해 데이터 모델링 및 DBMS 등을 이용
- 데이터 분석 시대 : 데이터가 폭발적으로 증가함으로써 대규모 데이터 보관 및 관리를 위한 빅데이터 기술이 등장
- 데이터 관리 시대 : 데이터 권리를 원래 주인인 개인에게 돌려주어야 한다는 마이데이터가 중요한 이슈로 대두
- 데이터 연결 시대 : 오픈 API 통해 많은 기업 및 정부/공공기관들이 서비스와 데이터를 개방하고 있다.
31. 빅데이터 조직 구성 시 고려사항
: 전체적인 조직 구조 고민하고, 해당 조직에 적합한 인력 구성을 고려해야 한다.
- 조직구조에 관련한 고려사항
- 전사 및 단위부서가 필요 시 접촉해 지원할 수 있는 구조인가?
- 어떤 형태의 조직으로 구성하는 것이 효율적인가?
- 비즈니스 질문을 선제적으로 찾아 낼 수 있는 구조인가?
- 인력구성에 관련한 고려사항
- 어떤 경험과 어떤 스킬을 갖춘 사람으로 구성해야 하는가?
32. 개인정보
- 개인정보의 내용이나 형식의 제한은 없다
- 살아 있는 개인데 관한 정보여야 한다
- 다른 정보와 쉽게 결합해 알아볼 수 있는 정보다
- 해당 정보만으로는 특정 개인을 알아볼 수없더라도 다른 정보와 결합하여 알아볼 수 있는 정보도 포함한다.
33. 분석 조직 구조
- 집중 구조 : 전략적 중요도에 따라 분석조직이 우선순위 정해서 진행 가능. 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음
- 기능 구조 : 전사적 핵심분석 어려우며, 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음
- 분산 구조 : 전사차원의 우선순위 수행, 분석결과에 따른 신속한 Action 가능, 부서 분석업무와 역할 분담 명확히 해야 함(→ 업무 과다 이원화 가능성)
34. Adhocracy(애드호크러시)
- 전문가들의 내부 갈등이 고조될 수 있음
- 서로의 권한 또는 책임의 한계를 정의내릴 수 없고 자율성이 강하기 때문에 효율적인 업무 공조를 끌어내기가 힘들다
- 다양한 분야의 전문가들이 빠르고 혁신적인 기능에 집중적으로 과제를 수행하는 고도로 유기적인 조직구조 유형
- 전문가에 의해 형식주의에 얽매이지 않고, 의사결정이 내려지는 특징이 있다.
- 전문가에 의해 창의적이고 순발력 있게 대처 가능
36. 빅데이터 플랫폼
- 다양한 소스로부터 생성되는 대량의 데이터 처리하기 위해 다양한 방법 제공
- 다양한 분석 방법이 적용될 수 있다.
- 데이터 수집, 저장, 처리, 분석, 시각화 제공(기획은 x)
37. 회귀분석
: 매출에 가장 큰 영향 미치는 요인 색출
38. 인공지능 기술
- 학습지능
- 머신러닝
- 추론/지식표현
- 단일지능
- 언어지능 : 텍스트 요약
- 시각지능
- 청각지능
- 복합지능
- 행동/소셜 지능
- 상황/감정이해
- 지능형 에이전트
- 범용 인공지능(AGI)
39. 인공지능
- 인공지능⊃머신러닝⊃딥러닝
- 머신러닝
- 학습에 필요한 데이터를 수동으로 제공
- 사람의 프로그래밍 없이 대량의 데이터를 접했을 때 스스로 수정하여 원하는 결과를 얻기 위한 기술
- 같은 모델을 따르는 데이터가 많으면, 학습된 모델이 정확해지므로 모델을 학습하기에 충분한 데이터가 있어야 한다.
- 딥러닝
- 분류에 사용할 데이터를 스스로 학습할 수 있다.
41. 딥러닝 관련 오픈소스
- TensorFlow, Caffe, Theano
*Spark : 데이터 분산 시스템, 하둡에 비해 처리속도가 빠르다. 머신러닝 패킷이 포함되어 있다. (딥러닝 사용할 수 없고, 사용 시 비용이 발생하게 된다)
42. 딥러닝 관련 분석기법
: RNN, CNN, LSTM
*K-NN : 최근접 이웃 알고리즘 → 머신러닝 분석 기법
43. 개인정보 수집 동의 관련
- 개인정보처리자는 개인정보 수집/이용/제공받을 때, 다음의 내용을 정보주체에게 알려야 한다.
- 개인정보 수집, 이용 목적
- 수집하려는 개인정보의 항목
- 개인정보의 보유 및 이용 기간
- 동의 거부 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우 그 불이익의 내용
*개인정보 처리방침 내용 : 개인정보의 안전성 확보 조치에 대한 사항
44. 빅데이터 시대의 위기와 통제
: 책임원칙 훼손 위기요인에 대한 통제 방안으로 기존의 원칙을 좀 더 보강하고 강화할 필요가 있고, 예측 자료에 의한 불이익을 최소화하는 장치를 마련할 필요가 있다.
46. 개인 정보 관련법
- 데이터 3법 : 개인정보 보호법, 정보통신망법, 신용정보법 개정안
- 개인정보 보호법 : 가명정보를 통계 작성 연구, 공익적 기록보존 목적으로 처리할 수 있도록 허용
- 정보통신망법 : 정보통신망법에 규정된 개인정보보호 관련 사항을 개인정보보호법으로 이관
- 신용정보법 개정안 : 가명정보는 통계작성, 연구, 공익적 기록보존 등을 위해 신용정보 주체의 동의 없이도 이용, 제공할 수 있다.
47. 가명처리
- 구체화된 목적에 필요한 최소한의 항목만을 가명처리 대상으로 선정하고 가명처리 대상 정보와 분리
- 사전준비>가명처리>적정성 검토 및 추가처리>사후관리
- 적정성 검토결과가 부적합한 경우, 가명처리 단계 반복하거나 부분적으로 추가적인 가명처리를 할 수 있다.
- 가명처리 대상 정보의 항목별 위험도 측정은 가명정보처리자가 보유한 정보를 기준으로 판단하므로 내부 활용과 제 3자 제공 시 고려 사항이 달라질 수 있다.
- 가명처리 단계 : 가명처리 대상 선정, 위험도 측정, 가명처리 수준 정의해 최종적으로 가명처리 수행
- 적정성 검토 및 추가처리 단계 : 데이터 분포, 내용 고려하여 특이정보가 있다고 판단한 경우 해당 데이터에 대한 적절한 조치 취한다.
- 가명정보 DB의 물리적 분리가 어려운 경우, 논리적으로 분리한 별도의 DB에 보관해도 괸다.
- 가명처리 이후 다른 정보와 결합되어 정보주체 파악이 가능하다면 즉시 적절한 조치 수행해야 한다.
- 단계간 반복이 가장 많이 발생할 수 있는 단계 : 가명처리 ↔ 적정성 검토 및 추가처리
2장. 데이터 분석 계획
1. 분석 유형
- 대상X, 방법X : 발견
- 대상X, 방법O : 통찰
4. 분석 기획 단계에서 고려해야 하는 사항
- 적절한 활용방안과 유즈케이스 탐색
- 분석 데이터 확보
- 장애요소들에 대한 사전 계획 수립
- 낮은 실행장벽
*세부 이행계획 수립 = 분석 기획 이후 과정
6. 과제 우선순위 평가
- 투자예산 확보 가능성 높고, 기술 확보가 용이하고 기술의 안정성이 보장된다면 우선순위는 높게 매겨질 것
- 업무별 도출된 분석과제를 우선순위 평가기준에 따라 평가하고, 과제 수행의 선,수행 관계 고려해 적용 순위를 조정해 최종 확정
- 현재 시급성이 낮더라도 전략적 필요성이 높다면 전략적으로 중요도가 높게 평가 될 것 X → 전략적 중요도는 시급성, 전략적 필요성 모두 고려
8. Value
: 전략적 중요도와 핵심성과지표가 기업이 데이터 분석을 통해 추구하고 달성하고자 하는 목표라는 관점에서 시급성은 빅데이터의 가치와 관련됨
9. 과제 우선순위
: I영역(난이도 어렵, 시급성 현재)에 위치한 분석 과제는 데이터 양, 특성, 분석범위 등에 따라 난이도 조율함으로써 적용 우선순위 조정할 수 있다.
11. 데이터 분석 구현을 위한 로드맵 수립에서 각 단계와 추진 목표
- 1단계 : 데이터 분석체계 도입단계
- 분석 기회 발굴해 분석 과제로 정의하고 마스터 플랜을 수립하는 것을 목표로 함
- 2단계 : 데이터 분석 유효성 검증 단계
- 분석 과제에 대한 Pilot 수행에 필요한 분석 알고리즘 및 아키텍처 설계하는 것을 목표
- Pilot 수행해 비즈니스적인 유효성과 타당성 검증하고 기술적인 실현 가능성을 검증하는 것을 목표로 한다.
- 3단계 : 데이터 분석 확산 및 고도화
- 빅데이터 분석 활용시스템 구축
- 유관시스템 고도화
- Pilot 통해 검증된 분석과제를 업무 프로세스에 내재화하기 위한 PI와 변화관리 실시
12. 반복적인 분석 체계
: 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형 많이 적용
13. 상향식(발산) vs. 하향식(수렴)
: 상향식 접근 방식의 발산 단계(XX발견→통찰)와 하향식 접근 방식의 수렵 단계(최적화→솔루션OO)를 반복적으로 수행하는 식의 상호보완적인 동적 환경을 통해 분석의 가치를 높일 수 있는 최적의 의사결정 방식
15. 비즈니스 모델을 활용한 과제 발굴방법
- 업무 : 제품 및 서비스 생산을 위해 운영하는 내부 프로세스 및 주요 자원 관련 도출
- 제품 : 생산 및 가공하는 제품과 서비스 개선하기 위한 관련 주제 도출
- 지원인프라 : 분석 수행하는 시스템 영역 및 이를 관리하는 인력 관점에서 주제 도출
- 고객 : 제품, 서비스 제공받는 사용자 및 고객과 이를 제공하는 채널 관점의 주제 도출
17. 하향식 접근법 문제 탐색 단계 ~ 분석 기회 발굴의 범위 확장
- 시장 니즈 탐색 관점에서 고객 뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 인플루언서에 대한 관점을 바탕으로 분석 기회 탐색
- 과제 발굴 단계에서는 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요하다
- 기업 내외부 환경을 포괄하는 BM과 외부 참조 모델을 활용하여 기업 내 존재하는 문제를 빠짐없이 식별하고 도출해내는 것이 중요하다.
- 외부참조 모델 기반 문제탐색에서는 Quick & Easy 방식으로 분석기회 발굴을 한다.
- 분석 유즈케이스는 풀어야 할 문제에 대한 상세한 설명과 해당 문제를 해결했을 때 발생하는 효과를 명시한 것으로 현재 및 유사 사례 탐색을 통해 분석 기회를 사전에 유즈케이스로 작성하면 과제 설정에 도움이 되므로, 분석 유즈 케이스를 먼저 작성해 구체적인 과제로 생성 가능
19. 하향식 접근법 ~ 문제 정의 단계
- 분석 수행 당자사 뿐만 아니라 최종 사용자 관점에서 이뤄져야 한다
- 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로의 변환 수행
*문제 탐색의 단계 : 무엇을 어떤 목적으로 수행해야 하는지에 대한 관점으로 진행되어야 함, 분석 대상 및 목표 설정에 관심을 둔다
20. 상향식
- 인과관계로부터 상관관계 분석으로의 이동이라는 변화를 만들었다
- 사물을 있는 그대로 인식하는 'What' 관점에서 수행
- 비지도 학습
vs. 하향식
- 문제 탐색을 시작으로 분석 과제 도출
- 지도 학습
21. 지도 학습(분류)
: 로지스틱 회귀분석, K-NN, SVM, 나이브베이즈 분류분석
22. 프로토타이핑 방법론 ~ 상향식 접근 방식
- 일단 분석 시도해보고 결과 확인해가면서 점진적으로 개선해 나가는 방법
- 데이터 분석 환경이 완벽하게 갖추어지지 않은 경우에도 활용 가능
- 완전하지는 못하더라도 신속하게 해결책이나 모형 제시함으로써 이를 바탕으로 문제 인식 및 식별해 구체화하는데 유용한 상향식 접근 방식
- 기존 프로세스 : 가설 생성 > 실험 > 실제 환경에서 테스트 > 테스트 결과에서의 인사이트 도출 및 가설 확인
- 필요성 : 문제에 대한 인식수준, 필요 데이터 존재 여부의 불확실성, 데이터 사용목적의 가변성
*전문 분석 인력 풍부하지 않더라도 위 세 필요성 조건 만족된다면 프로토타이핑 방법론 활용될 수 있다
24. 수요 기반으로 분석 과제 도출하는 과정
: 문제 해결 시나리오를 먼저 정의하고, 이에 적합한 내/외부 데이터 탐색 및 분석 기법 매칭을 통해 진행
데이터 주도 분석 과제 도출
- 다양한 데이터 원천의 조합으로 통합적 및 시각화 분석을 통해 의미있는 패턴 파악하고 이를 업무에 적용하는 새로운 과점의 접근 방법
- 기존 분석기법에서는 고려조차 하지 않는 다양한 파생정보 파악 가능
- 데이터 통해 숨어있는 패턴, 정보, 통찰을 추출해낼 수 있는 방법
25. 분석 과제 정의서
- 분석 데이터 소스는 내부 데이터 뿐만 아니라, 외부 데이터, 소셜미디어, 오픈 데이터까지 범위 확장해 고려하고 분석 방법 또한 상세하게 정의
- 분석 결과 검증 책임자 또한 기술
26. 분석방법론의 구성요소
- 상세한 절차, 방법
- 도구와 기법
- 템플릿과 산출물
27. 합리적 의사결정 막는 장애요소
- 고정관념
- 편향된 생각(Bias)
- 프레이밍 효과
28. 암묵지 → 방법론
암묵지가 형식화를 통해 문서나 매뉴얼처럼 외부로 표출되어 여러 사람이 공유할 수 있는 형식지로 나타나고, 이를 체계화하여 방법론이 생성된다.
31. 빅데이터 분석 방법론의 계층적 프로세스
- 단계, 태스크, 스텝의 3계층으로 구성
- 각 단계는 여러 개의 태스크로 구성됨
- 최하위계층은 입력자료, 처리 및 도구, 출려자료로 구성된 단위 프로세스
- 각 단계는 기준선으로 설덩되어 관리되어야하고, 버전 관리 등을 통해 통제가 이루어져야 한다.
32. 빅데이터 분석 방법론에서 단계 간 피드백이 가장 원활하게 진행될 수 있는 단계
: 데이터 준비 ↔ 데이터 분석
33. KDD : 데이터 선택>데이터 전처리>데이터 변환>데이터 마이닝>평가
- 데이터 변환
- 분석 목적에 맞게 변수 생성 및 선택하고 데이터 차원을 축소하는 단계
- CRISP-DM의 데이터 준비 단계와 상응
35. CRISP-DM : 업무 이해 > 데이터 이해 > 데이터 준비 > 데이터 모델링 > 평가 > 전개
- 4레벨의 구조로 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행으로 구성
- KDD와는 달리 단방향으로 구성되어 있지 않고, 단계 간 피드백 통해 단계별 완성도 높일 수 있는 분석 방법론
- 1996년 유럽 연합의 ESPRIT에 있었던 프로젝트에서 시작되어 SPSS, NCR, Teradata, OHRA, Daimler Chrysler 등이 참여
- 모델링 : 모델링 기법 선택, 모델 자체 평가, 모델 테스트 계획 설계
- 평가 : 모델 적용성 평가, 모델링 과정 평가
- 데이터 이해 : 데이터 탐색
- 업무 이행 : 데이터 마이닝 목표 설정
39. 데이터 확보 계획 수립 절차
- 요구사항 도출 단계 : 데이터 전처리 및 정제수준, 데이터 저장 및 관리 형태 정의 단계
- 빅데이터 분석 목표에 맞는 데이터 확보 계획 수립하기 위해 4단계의 체계적인 절차가 필요
- 계획 수립 단계 : 위험 관리 및 데이터 품질 관리 방안, 원활한 커뮤니케이션 실행 방안 등 마련
40. 빅데이터 분석 변수
- 변수 척도에 따라 분석 기법이 달라진다
- 빅데이터 특징과 분석 요건 정의에 따라 도출된 분석 항목을 고려해 분석 변수를 정의한다.
- 테스트용 데이터 셋에는 정형 데이터 뿐만 아니라 비정형 데이터도 포함된다
- 학습용, 테스트용, 검증용 데이터셋으로 분할해 분석 및 검증할 수 있으며 세 변수가 섞이지 않도록 분리해야 함
41. 명목척도(성별)
: 교차분석 이용할 수 있는 변수 척도
43. 빅데이터 분석 절차의 분석 기획 단계
- 프로젝트 범위 설정
- 위험 식별
- 프로젝트 정의
*빅데이터 분석절차의 데이터 준비 단계 : 필요 데이터 정의, 데이터 스토어 품질 점검 통해 데이터 정합성 확보
44. 위험에 대한 반응
: 회피, 완화, 수용, 전이
45. 작업분할구조도(WBS)
- 전체를 큰 단위로 분할하고 각각의 부분 단위에 대해 좀 더 작은 단위로 분해해 가장 작은 단위인 워크 패키지로 분할
- 수행업무 식별이 가능하며 일정 계획 및 진행상황을 파악할 수 있는 방법
- 프로젝트 진행 중 변경사항이 발생하였을 때 통제 관리도구로 사용된다.
46. 빅데이터 분석 방법론에서 데이터 분석 단계
- 데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터 추출
- 데이터의 기초 통계량 산출
- 프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가하고 품질관리 차원에서 모델 평가 프로세스를 진행
47. 데이터 분석 단계의 모델 평가 및 검증
: 모델의 실적용성 검증하기 위해 검증용 데이터 이용해 모델 검증 작업 실시하는 단계
48. 빅데이터 분석 절차와 주요업무
- 분석 기획 - 프로젝트 위험계획 수립
- 데이터 분석 - 모델링, 분석용 데이터 준비, 모델 평가 및 검증, 데이터 시각화 보고서
- 데이터 준비 - 데이터 매핑 정의서
*빅데이터 분석 절차
- 분석 기획
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험계획 수립
- 데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
- 데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
- 시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
- 평가 및 전개
- 모델 발전 계획 수립
- 프로젝트 평가 및 보고
3장. 데이터 수집 및 저장 계획
1. 로그 수집기
: Scribe(페북), Flume, Chukwa(야후)
2. 빅데이터 수집 기법
- FTP : TCP/IP 프로토콜 이용해 인터넷 서버로부터 각종 파일들을 송수신
- RSS : 웹상 최신 정보 공유하기 위한 XML기반의 콘텐츠 배급 프로토콜.
*RDB Aggregator : 관계형 DB에서 정형 데이터 수집해 HDFS나 NoSQL에 저장하는 오픈 소스 기술
5. 크롤링
- 크롤링 주 목적은 데이터가 어디에 저장되어 있는지 위치에 대한 분류작업
- 크롤링 종류 중 하나인 웹 로봇은 사람과의 상호작용 없이 연속된 웹 트랜잭션들을 자동으로 수행하는 소프트웨어 프로그램이다.
- 크롤링 종류 중 하나인 웹 크롤러는 검색엔진에서 주로 사용하며 방문한 모든 페이지의 복사본을 생성하고 생성된 페이지에 대해 인덱싱을 수행하여 빠른 검색이 가능하다.
- 인터넷 상 여러 웹페이지에서 html, 문서 등의 데이터 등 다양한 데이터 수집할 수 있다.
7. 빅데이터 수집 시스템 요건
- 확장성 : 데이터 수집 대상이 되는 서버는 충분한 확장 가능해야 함
- 안정성
- 유연성 : 다양한 데이터 원천의 여러 포맷에 적용할 수 있도록 변경이 용이해야 함
- 실시간성 : 수집된 데이터는 실시간으로 반영되어야 한다.
8. 정성적 데이터
- 객체 하나의 함의된 정보를 가진다는 특징이 있다
- 파일, 웹 등의 형태로 저장된다.
12. 구조 관점의 데이터 유형
- 반정형 데이터
- 정형화된 스키마 가지며, 값과 형식에 일관성이 없다.
- 파일에 포함된 메타데이터 바탕으로 테이블 형태의 데이터 스키마로 변환하고 데이터 매핑해 정형 데이터로 변환
- 보통 데이터 제공자가 선별해 API형태로 제공
- 비정형 데이터
- 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터 등이 있다.
- 비정형 데이터의 수집 기술은 데이터 세트가 아니라 객체화되어 있는 하나의 데이터다
- 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 함
- 수집주체에 의해 데이터 분석이 선행되었기 때문에 목적론적 데이터 특징이 가장 잘 나타난다.
- 정형 데이터
- 내부 데이터 특성 상 활용면에서 잠재적 가치는 상대적으로 낮다
17. 데이터 유형과 그 종류
- 실시간 데이터 : 센서 데이터, 보안 장비 로그, 시스템 로그
- 비실시간(배치) 데이터 : 웹 로그
18. 저장 형태 관점에서 구분한 데이터 종류
- 파일 데이터 : 시스템 로그, 서비스 로그, 텍스트, 스프레드시트
- 데이터 베이스 데이터 : 데이터베이스 칼럼 또는 테이블 등에 저장된 데이터 의미
- 스트림 데이터 : 네트워크 통해 실시간 전송
21. ETL
- 데이터 이동 및 변환 절차와 관련된 업계 표준용어
- 데이터 통합, 이동, 마스터 데이터 관리 등의 작업을 위해서도 활용
- 구현을 위한 다양한 상용 소프트웨어가 있으며 일괄 ETL, 실시간 ETL로 구분됨
- 다양한 시스템들 간 대용량의 데이터 교환이 필요하거나 복잡한 비즈니스 룰이 적용되는 데이터 교환이 필요한 경우에 활용됨
- 변환 : 데이터 클렌징, 표준화, 형식변환, 통합, 다수 애플리케이션에 내장된 비즈니스 룰 적용
23. DW 기반으로 데이터 관리가 이루어지는 경우
- 데이터 수집, 관리, 분석의 역할 위해 3개 레이어로 구성
- 소스 레이어 : 데이터 수집
- 분석 레이어 : BI, 애널리틱스 등을 이용해 의사결정에 필요한 데이터 분석 수행
- 소스 레이어에서 수집된 데이터는 DW레이어로 전달되기 전에 우선 ETL과정 거치게 된다.
24. ETL 기능
- 논리적 데이터 변환
- 도메인 검증
- DBMS 간 변환
- 데이터 요약
- 데이터 키 값으로 시간 값의 추가
- 데이터 키 값 재구성
- 레코드 통합
- 불필요한 데이터 삭제 및 중복 데이터 삭제 = 데이터 축소(데이터 확대는 되지 않음)
25. 정형 데이터 변환 과정
: 데이터 변환 시 데이터 구조 미리 정의
: 태그로 둘러싸인 웹페이지의 경우 태그 제외한 대상 데이터의 정보 구조 확인해 불필요한 부분 제외하고 필요 데이터만을 추출할 수 있도록 해야 함
26. 비식별화
: 그 자체로 개인 식별할 수 있는 정보(식별자~홍채)뿐만 아니라 해당 정보만으로는 특정 개인 알아볼 수 없더라도 다른 정보와 쉽게 결합해 개인을 알아볼 수 있는 정보(준식별자~혈압, 허리둘레, 진료내역) 또한 비식별화 적용 대상
- 가명처리 : 개인 식별 가능한 데이터에 대해 직접적으로 식별할 수 없는 다른 값으로 대체, 교환방법
- 총계처리 : 총계처리, 부분총계, 라운딩, 재배열
32. 프라이버시 모델
- k-익명성 : 한 개인이 k명의 다른 사람들과 구별되지 않도록 민감하지 않은 속성 수정
- l-다양성 : 만족하더라도 모집단 대비해 민감정보의 분포 차이를 통해 개인 사생활 정보가 노출되는 문제가 발생할 수 있다.
*준식별자 : 간접적으로 추론하는데 사용될 수 있는 속성 → 비식별화 기법들에서 변형, 조작의 대상이 된다.
36. 데이터 품질 관리의 중요성
- 데이터 분석결과의 신뢰성 확보
- 일원화된 프로세스
- 데이터 활용도 향상
- 양질의 데이터 확보
*데이터 품질 기준
- 정형 데이터 : 완정유유일(완전, 정확, 유일, 유연, 일관)
- 비정형 데이터 : 신기사이효(신뢰, 기능, 사용, 이식, 효율)
39. 품질 진단 방법
- 체크리스트 : 전반벅인 데이터 품질관리 수준과 지표별 데이터 품질 수준 진단 가능
- 비정형 실측 : 문서, 이미지, 동영상 등의 정보를 사람이 직접 확인을 통해 오류 여부 진단하는 방법
- 업무규칙 진단 : 법, 규정에 정의된 업무기준 근거해 데이터가 관리되고 있는지를 진단하는 방법
40. ETL설계
- 소스시스템 분석 과정 : 소스데이터 변경에 대한 타임스탬프 관리 해야 한다
- 데이터 변환 규칙 설정 과정 : 데이터 표준화 및 정합성 위해 오류 데이터 검출, Null 데이터 처리 방안 등의 작업 규칙 확립
- 신뢰성 확보 방안 단계 : 데이터 검증방안 실행하여 필요 데이터만을 타겟 시스템에 적재
- 타겟 시스템에 적재 시 데이터 소스 시스템의 변환 데이터 식별 가능 여부에 따라 Delete/Insert, Update/Insert, Truncate/Insert 등 여러 적재 방법들 중에서 상황에 맞는 방법 선택해 적용하도록 한다.
41. 분산파일 시스템
- 대용량 데이터 수집, 저장, 분석하는데 두 대 이상의 컴퓨터 이용해 작업을 적절하게 분배하고 필요 시 다시 조합
- 일부 작업에 문제 생기는 경우 해당 부분만을 재처리할 수 있도록 하는 역할 수행
42. HDFS
- 클라우드 컴퓨팅 환경을 구축하기 위해 이용하며 대용량 데이터 분산 저장 기능 제공하는 시스템
- 다수의 리눅스 서버에 설치되어 페타바이트 이상의 대용량 데이터 저장 공간 확보
- 리눅스 장비 사용해 RDBMS에 비해 시스템 구축비용 저렴
43. HBase
- 구글의 Bigtable을 본보기로 자바 기반으로 개발된 비관계형 DB
- NoSQL의 대표적인 방법으로 스키마 지정 및 변경없이 데이터 저장할 수 있으며 HDFS에서 동작함으로써 확장성이 보장되는 시스템
- 대용량 데이터를 안정적으로 다루는데 효과적, 전체 데이터에 대한 일관성 보장
- HDFS, MapReduse와 함께 사용하기에 최적화
*구글 Bigtable
: NoSQL 데이터베이스로 대용량의 데이터를 온라인에 저장할 수 있는 서비스이며 오픈소스 아파치 HBase용 API를 사용해 데이터를 읽고 작성할 수 있다.
44. NoSQL
- RDBMS 중심의 데이터 저장기술로 비정형 데이터의 저장과 관리의 한계를 극복하기 위해 등장한 새로운 데이터 저장 기술
- 키 값을 이용해 간단하게 저장하고 데이터 저장 및 관리 시 SQL사용하지 않음
- 스키마 없이 동작하며 구조에 대한 정의 변경 없이 자유롭게 DB의 레코드에 필드 추가 가능
- 기존 RDBMS의 주요특성인 ACID는 제공하지 않지만 뛰어난 확장성 및 성능을 제공하는 저장 시스템
46. 빅데이터 저장 기술 제품
- VoltDB
- SAP HANA
- Vertica
*NAS : 네트워크 구성 저장 시스템 기술
49. MapReduce
- Hadoop 클러스터의 데이터 처리하기 위한 시스템으로 여러 노드에 태스크 분배
- 맵과 리듀스라는 2개의 단계로 구성
- 맵과 리듀스 사이에는 shuffle과 sort 스테이지가 존재
- 정렬과 같은 작업은 입력 데이터 사이즈가 줄지 않고 그대로 Reduce로 전해지므로 수행 성능이 저하되어 적합하지 않다
50. 빅데이터 저장의 문제점 및 해결방안
- 데이터 저장 및 관리에 많은 비용 소모 : 데이터 저장과 관련해 TCO를 낮출 수 있는 기술력 보유
- 저장 용량 한계에 따른 확장의 어려움 : 횡적인 용량 확장의 용이성 향상
- 다양한 형식 및 대용량 데이터 관리 문제 : 데이터 형식 및 용량에 크게 구애받지 않는 기술적인 여유 보유