해당 내용은 떠도는 Colab파일과 블로그 내용 그리고 민트책을 합쳐 정리했습니다.
01 빅데이터의 이해
관점에 따른 정의
- 규모 중점 : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- 분석 비용 및 기술 초첨 : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치 추출, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
빅데이터의 정의 : 3V + 가치, 시각화, 정확성 = 4V
- 규모 Volume : 데이터의 규모 측면 - 센싱 데이터, 비정형 데이터
- 형태 Variety : 데이터의 유형과 소스 측면의 다양성 - 정형, 비정형(영상, 사진)
- 속도 Velocity : 데이터의 수집과 처리 측면
- 가치 Value(비즈니스 효과에 해당), 시각화 Visualization, 정확성 Veracity
*3V는 투자비용 요소
빅데이터 정의의 범주 및 효과
데이터 변화 | 기술 변화 | 인재, 조직 변화 |
- 규모 Volume - 형태 Variety - 속도 Velocity |
- 데이터 처리, 저장, 분석기술 및 아키텍쳐 -클라우드 컴퓨팅 활용 |
- Data scientist같은 새로운 인재 필요 - 데이터 중심 조직 |
빅데이터의 출현 배경
- 산업계 : 고객 데이터 축적, 보유 통해 데이터에 숨어있는 가치 발굴
- 학계 : 거대 데이터 다루는 학문 분야 증가하며 필요한 기술 아키텍쳐 및 통계 도구 발전 ex) 인간 게놈 프로젝트
- 기술 발전 : 관련기술(저장, 인터넷 보급, 클라우드 컴퓨팅;빅데이터 분석에 경제적 효과를 제공해준 결정적 기술, 모바일 혁명)의 발달
- 비정형 데이터 확산
빅데이터가 만들어내는 본질적인 변화
- 사전처리 → 사후처리
: 가능한 한 많은 데이터 모아 다양한 방식으로 조합해 숨은 정보 찾아냄
- 표본조사 → 전수조사
: 데이터 수집 비용 감소 + 클라우드 컴퓨팅 기술 발전 => 데이터 처리 비용 감소
: 전수조사 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용 방법이 변함
- 질 → 양
: 데이터가 지속적으로 추가될 경우 양질의 정보 > 오류 정보 => 좋은 결과 산출에 긍정적
- 인과관계 → 상관관계
: 인사이트 얻음
빅데이터의 기능
- 산업혁명의 석탄, 철 : 생산성 상승해 사회, 경제, 문화, 생활 전반에 혁명적 변화 가져올 것
- 21세기의 원유 : 경제 성장에 필요한 정보 제공 → 생산성 향상, 새로운 범주의 산업
- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터 산업 발전에 영향
- 플랫폼
: 공동 활용 목적으로 구축된 유무형의 구조물로써 다양한 서드파티 비즈니스에 활용되며 플랫폼 역할을 함
: 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공, 처리, 저장해 두고, 이 데이터에 접근할 수 있도록 API 공개
02 빅데이터의 가치와 영향
빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식 : 데이터의 재사용, 재조합, 다목적용 데이터 개발이 일반화되어 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없게 됨
- 새로운 가치 창출 : 데이터 분석 통해 '기존에 없던 가치' 창출할 수 있게 되어 데이터 가치 산정이 힘들어짐
- 분석 기술 발전 : 현재 가치가 없어보인다 하더라도, 추후 새로운 분석 기법 도입 시 가치 변할 수 있음
빅데이터의 영향
분야 | 영향 | 내용 |
기업 | 혁신, 경쟁력 제고, 생산성 향상 | 소비자 행동 분석, 시장 변동 예측해 비즈니스 모델을 혁신하거나 신사업 발굴 |
정부 | 환경 탐색, 상황 분석, 미래 대응 | 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정, 정보를 추출 |
개인 | 목적에 따른 활용 | 빅데이터 서비스 기업의 출현으로 비용 하락해 정치인이나 대중 가수 등이 인지도 향상에 빅데이터 활용 |
03 비즈니스 모델
빅데이터 활용 기본 테크닉
- 연관규칙학습(연관 분석)
: 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법
: 장바구니 규칙
: 커머스 업종에서 소비 패턴 분석에 주로 사용
- 유형 분석
: 문서 분류 / 조직 그루핑 / 온라인 수강생들을 특성에 따라 분류
- 유전자 알고리즘
: 생물의 진화 과정을 기반으로 한 최적화 탐색 방법
: 자연선택, 돌연변이 등과 같은 매커니즘을 통해 근삿값에 가까운 해답을 신속하게 찾음
ex) 최대 시청률을 얻으려면 어떤 프로를 어떤 시간대에 방송해야 할까?
ex) 가장 효율적인 응급실 의사 배치 방법
- 기계학습
: 훈련 데이터로부터 학습한 알려진 특성 활용해 예측
ex) 사용자 맞춤 영화 추천, 광고 등
- 회귀분석
: 독립변수, 종속변수 두 변인의 관계 파악
ex) 만족도가 충성도에 어떤 영향을 미치는가?
ex) 나이와 구매 차량의 타입간 영향성 파악
- 감정 분석
: 문장, 단어의 긍부정 의견 분석해 감정 분석
- 소셜네트워크 분석(사회관계망 분석)
: 그래프 이론 이용해 사람, 그룹, 데이터 등 객체 간의 관계 및 관계 특성을 분석하고 시각화
ex) SNS상 정보의 허브 역할을 하는 사용자 찾기
ex) 친분관계와 승진의 영향성 파악
ex) 고객들간 관계망 구성 파악
ex) 핀테크 기업의 대출(SNS등을 통해 비금융 비정형 정보를 이용해 차주의 신용도 재평가)
04 위기요인과 통제방안
위기 요인
- 사생활 침해
: 동의제를 책임제로 전환
: 익명화(개인 식별 정보 삭제 or 알아볼 수 없는 형태로 변환하는 포괄적인 기술)
- 책임 원칙 훼손
: 기존 책임원칙 강화
: 예측 알고리즘의 희생양이 될 가능성 존재(마이너리티 리포트)
ex) 범죄 예측 프로그램을 통해 범죄 전 체포
- 데이터 오용
: 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입
ex) 베트남 전쟁 당시 적군 사망자 수를 전쟁의 진척도로 삼아 전쟁 상황을 오보
위기 요인에 따른 통제 방안
- 동의에서 책임으로 : 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 짐 → 사용주체의 적극적인 보호장치 강구 가능
- 결과 기반 책임 원칙 고수 : 예측 자료에 의한 불이익 당할 가능성 최소화. 피해 최소화 장치 마련
- 알고리즘 접근 허용 : 예측 알고리즘의 부당함을 반증할 수 있는 방법 명시 → 불이익을 당할 사람들을 대변할 전문가(알고리즈미스트)의 등장.
개인정보 비식별 기술
- 데이터 마스킹
: 데이터 길이, 유형, 속성은 유지한 채 일부 데이터를 익명으로 생성하는 기술
ex) 고**, **대학 졸업, **기업 재직
*데이터 마스킹은 개인 식별에 중요한 데이터 값을 삭제하는 것이다 X → 데이터 값 삭제에 대한 설명 임
- 가명 처리
: 개인 식별에 중요한 데이터를 식별할 수 없는 값으로 변경. 규칙이 노출되지 않도록 주의
ex) 홍길동, 국내 주요 대학 졸업, 국내 대기업 재직
- 데이터 값 삭제
: 필요없는 값 또는 개인 식별에 중요한 값을 삭제. 날짜정보는 연단위로
ex) 홍길동, 39세, 서울 거주, 국내 대학교 졸업 → 39세, 서울 거주
ex) 주민등록 번호 870815-1046278 → 87년생, 남자, 서울 거주
- 총계 처리
: 데이터의 총합 값을 보임으로써 개별 데이터 값을 가림
ex) A지역의 성금 금액 합: xx원, 평균 yy원
- 데이터 범주화 Recording
: 구간으로 범주화
ex) 홍길동, 39세, 서울 거주, 국내 대학교 졸업 → 홍 씨, 30대
- 잡음 첨가
: 자료의 값에 잡음 추가하거나 곱해 원자료에 약간의 변형을 가하여 공개
05 미래의 빅데이터
빅데이터 활용의 3요소
- 데이터 : 모든 것의 데이터화(datafication)
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트