1장. 분석모형 평가 및 개선
1. 분석모형 평가
- 구축된 분석모형의 유용성 판단, 서로 다른 모형들을 비교 평가
- 일반화 가능성, 효율성, 예측 & 분류의 정확성으로 구분
3. 혼동 행렬
- 분류 목적의 머신러닝 모형 성능 평가 시 활용
- 분류 정확도 평가지표
- 분류의 예측 범주와 데이터의 실제 분류 범주 활용
- 오차 행렬이라고도 함
- 2가지 이상되는 분류 문제에도 적용 가능
- Positive/Negative 예측한 값, True/False 예측한 값과 실제 값 비교
- 정분류율, 오류율, 민감도(재현율), 특이도, 정밀도
실제 | |||
T | F | ||
예측 | T | TP | FN |
F | FP | TN |
- 정밀도 = TP/(TP+FN) → 정확도
- 민감도(재현율) = TP/(TP+FP) → 완전성, 참긍정률 TPR
- 특이도 = FN/(FN+TN) → 참부정률 TNR
11. ROC그래프
- (x, y) = (1-특이도, 민감도) = (0, 1) : x축 낮고, y축 높을수록(왼쪽 상단에 가깝게 그려질수록) 분류정확도 높다.
- 여러 분류 모델 성능 비교하기 위해 이를 단일 지표로 계량화한 성능분석 척도 AUC를 이용할 수 있다.
- 기준값의 변화에 따른 참긍정, 거짓긍정 비율의 변화 분석
15. 향상도 곡선(이익도표)
- 분류 모형 평가하는 방법
- 랜덤 모델과 비교해 해당 모델의 성과 얼마나 향상되었는지를 각 등급별로 파악하는 그래프
- 높은 반응률, 향상도의 빠른 감소 → good
- 반응률 (%Response) : 해당 등급의 실구매자 / 각 등급 고객 수
18. 카파 통계량의 상관계수
- 최초 두 평가자가 일치하는지에 대한 척도로 개발
- 모델 예측값과 실제값 일치여부 판정하는 통계량으로 사용
- 우연히 나온 결과가 아니며 그 평가의 유효성 확보하는 지표로도 사용
- 0~1 : 0 = 불일치, 1 = 일치
21. 회귀모형의 기본 평가지표
- SST = SSE + SSR
- SSE : 오차 제곱합
- MSE : 평균 제곱 오차
- MAE : 평균 절대값 오차
- RMSE : 평균 제곱 오차의 제곱근 값
- AE : 예측 결과값들의 평균 오류
- MAPE : 평균절대백분율오차 = 단순 오차 크기 비교 X. 오차 평균 크기가 크게 차이나는 모델들도 비교할 수 있는 지표
24. 지도학습 모델의 일반적인 평가 기준
- 일반화 가능성 : 같은 모집단 내 다른 데이터 적용하는 경우에도 결과가 안정적이라면, 또 데이터 확장하여 적용할 수 있다면 일반화 가능성 높다고 볼 수 있다
- 효율성 : 입력변수 적을수록 높다
- 정확성 : 에 문제 있으면 모형은 의미 없다
- 해석력 : 입력 변수와 출력 변수와의 관계 잘 설명하는가를 의미
25. 군집모델 성능 평가
- 목표값 O : 일치 행렬, 랜드지수 RI, ARI, 조정 상호 정보량 AMI
- 목표값 X : 던 지수, 실루엣 계수
27. 데이터 정규성 검정 방법
- 데이터 적은 경우 샤피로-윌크 / 많은 경우 K-S
- 샤피로-윌크
- 어떤 분포 따르는 데이터의 정규성 검정에도 사용 가능
- H0 : 데이터는 정규분포 따른다
- K-S와 달리 정규분포만 검정 가능
- K-S 적합성 검정
- 어떤 분포 따르는지 정규분포와 비교
- 두 개의 다른 정규분포 비교하는 방법으로 정규성 검정
- 더빈 왓슨 검정 : 회귀모형 오차항의 자기 상관이 있는지에 대한 검정
- 적합도 검정 : 표본 집합의 분포가 주어진 특정 이론 따르고 있는지 검정하는 기법
30. 아래의 잔차도(Q-Q Plot)를 통한 잔차분석
- Q-Q Plot
- 회귀모형이 가정 만족하는지 확인
- 선형성 가정 만족하면 분석 결과 잔차는 정규분포
- 잔차가 대각방향의 직선 형태 = 잔차는 정규분포 따른다
- 선형 회귀분석에서 선형성 가정 확인하기 위해 잔차분석한다
- 가로축은 종속변수, 세로축은 독립변수에 따른 잔차 통해 잔차 분산이 일정하다는 등분산성 가정이 위배된다는 사실을 알 수 있다.
- 잔차 대 적합치를 표현한 그래프는 잔차 분산이 일정하다는 가정을 확인하는데 사용된다.
- 회귀분석에 사용된 데이터가 선형성 가정을 충족하지 못한다.
31. 영향력 진단
- 회귀모형이 옳다는 전제 하
- 데이터 변화가 모형의 추정에 어떤 영향 미치는지 알아보는 것 / 이상치 여부 확인
- 관측값 하나씩 제거하는 방법
- 분석 결과의 주요 부분에 많은 변동 = 모형 안정성 약하다
- 쿡의 거리, DFBETAS, DFFITS, Leverage H
32. 교차검증
- 모델의 일반화 오류에 대해 신뢰할 수 있는 추정치 구하기 위해 훈련, 평가 데이터 기반으로 하는 검증 기법
- LOOCV 사용 시, 낭비되는 데이터 X
- LpOCV 측정, 평가 비용은 nCp만큼 교차검증 반복되므로 K-Fold, 랜덤 서브샘플링과 비교해 비용 가장 비쌈
- 랜덤 서브샘플링
- 모집단으로부터 조사 대상이 되는 표본 무작위 추출
- 각 샘플들이 학습과 평가에 얼마나 많이 사용될 것인지 회수 제한 X → 특정 데이터만 학습되는 경우 발생
- K-Fold : (K-1 = 학습, 1 = 평가) * K번
- 홀드아웃
- 훈련, 평가, 검증(훈련>평가)
- 평가 데이터를 학습에 사용X → 데이터 손실 발생
- 계산량 많지 않아 모형 쉽게 평가
36. 모평균에 대한 유의성 검정
- 모분산 알고 있느냐 유무 따라 Z-검정 or t-검정 사용(현실적으로 모분산 알고 있기란 거의 불가 => t-검정 사용)
- 모분산 알지 못해도 검정통계량의 분포를 정규분포로 근사할 수 있으면 Z-검정 실시
- 모평균 알고 있을 때, Z-검정, t-검정 사용해 유의성 검정
39. 오류
- 일반화 오류(과대적합)
- 주어진 데이터 집합은 모집단의 일부분임에도 불구하고 그것이 가지고 있는 주변적인 특성, 단순 잡음 등을 모두 묘사하기 때문에 일반화 오류 발생
- 분석 데이터가 모집단의 특성 설명 X
- 해결책 : 데이터셋 증가, 모델 복잡도 감소, 가중치 규제(개별 가중치 값 제한해 복잡한 모델 좀 더 간단하게 하는 방법, L1규제 & L2 규제), 드롭아웃(학습과정에서 은닉층 신경망 일부 사용X, 예측 시에는 사용 X, 적은 수의 뉴런 가지고 학습하므로 학습 시간 오래 걸림)
- 학습 오류(과소적합) : 주어진 데이터 집합에 부차적인 특성과 잡음 있다는 점 고려해 그것의 특성 덜 반영하도록 분석 모형 만들어 생기는 오류
44. 매개변수 종류
- 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 가중값에 더해주는 상수
- 가중치 : 각 입력값에 각기 다르게 곱해지는 수치
47. AdaGrad
- 손실함수 기울기 큰 첫 부분 : 크게 학습 / 최적점 가까울수록 학습률 줄여 조금씩 적게 학습
- 일괄적으로 낮추는 것 X, 각각의 매개변수에 맞는 학습률 값 만들어주는 방식
48. 분석 모형 융합
- 부스팅 : 미리 정해진 개수의 모형 집합 사용X. 하나의 모형에서 시작해 모형 집합에 포함할 개별 모형 하나씩 추가
- 그레디언트 부스팅 : 분류/회귀 문제 상관없이 개별 멤버 모형으로 회귀분석 모형 사용하는 기법
2장. 분석결과 해석 및 활용
3. 데이터 시각화 기능
- 설명
- 탐색
- 표현 : 스토리 전달, 공감 불러일으키기 위한 기능. 심미적 측면에서 감정적 반응과 데이터에 대한 다양하고 풍부한 해석 제공(인포그래픽, 워드클라우드)
- 기능 : 정보전달, 설득, 정보 습득 시간 절감해 즉각적인 상황 판단
*인포그래픽 : 유명인사(스토리텔링형), 심리정보(만화형), 인물/기업/기술의 발전 & 사건 전재(프로세스형)
5. 데이터에 따라 변할 수 있는 일종의 시각적 차원
: 크기, 색상, 위치, 네트워크, 시간, 다중표현기법을 기준으로 함
7. 시각화 특징
: 관계와 차이 명확하게 표현 → 추가적인 정보와 스토리 제공
8. 데이터 시각화 유형
- 시간 : 막대, 산점도, 선, 계단식, 영역
- 분포 : 파이, 도넛, 트리맵
- 관계 : 산점도, 버블차트, 히스토그램, 산점도 행렬
- 비교 : 히트맵, 평행좌표 그래프, 체르노프 페이스(많은 다변량 변수 포함된 자료에서 관심있는 변수를 2차원에 효과적으로 표현하는 방법), 레이더 차트(거미 차트)
- 공간 : 등치선도, 도트맵, 카토그램(지도를 통해 시점에 따른 경향, 차이 확인)
10. 스토리텔링
- 데이터 분석 결과 시각하기 전 작업
- 사용자별 데이터셋 및 정보 정의, 사용자 시나리오 작성, 스토리보드 기획 등으로 수행
11. 분석 난이도
: 관찰/보고 < 진단분석 < 이상탐지 < 실시간 대응 < 예측분석 < 최적화
14. 비즈니스기여도 분석에 영향을 미치는 요인
: 서비스 제공 현황, 분석을 위한 데이터 품질, 비즈니스 상황
15. 평가 기법
- 내부수익률 IRR : 순현재가치 0으로 만드는 할인율
- 순현재가치 NPV : (예상 투자비용의 할인 가치 - 예상 수익의 할인 가치)의 합
- 투자회수기간 PP : 시작 시점부터 누적 현금흐름이 흑자로 돌아서는 시점까지의 기간
- 투자대비효과 ROI : 자본 투자에 따른 순 효과율, 투자 타당성 평가
19. 시각화 기법
- 이산형 데이터 : 점, 막대, 누적 막대
- 연속형 시계열 데이터 : 히스토그램, 선, 계단식, 영역 차트
21. 픽토그램
: 그림+전보. 사물, 시설, 행위 등 누가 보더라도 그 의미를 쉽게 알 수 있도록 만들어진 그림문자
22. 산점도 행렬 - 관계 시각화
- 다변량 변수 갖는 데이터에서 가능한 모든 변수 쌍에 대한 점들을 행렬 형태로 표현한 그래프
- 분포, 변수들의 밀접도, 그리고 자료 분포에 존재하는 패턴 신속하게 식별할 수 있게 해줌. 데이터 탐색 과정에서 유용
- 대각선 위치 : 동일한 변수에 대한 것 → 비워두거나 변수 이름 표기한 레이블 표시
23. 레이더 차트 / 거미차트
- 체르노프 페이스와 같이 데이터 수만큼의 다각형 생성해 각 다각형 모양 비교
- 다변량 변수 갖는 자료를 제한된 2차원에 효과적으로 표현하는 비교 시각화의 한 기법
*다차원 척도법 : 표현하고자 하는 객체 간 간격이 발생하는, 즉 거리행렬을 포함하는 데이터 시각화에 유용
*트리맵 : 영역기반의 시각화. 사각형의 크기가 수치. 한 사각형을 포함하고 있는 바깥의 영역은 그 사각형이 포함된 대분류를, 내부의 사각형은 내부적인 세부 분류를 의미하는 것
31. 분석모형 개선
- 평가 후 실시
- 과대적합 방지, 매개변수 최적화, 분석모형 융합, 최종모형 선정
32. 분석 모델 배포 과정에서 발생하는 이슈
- 모델 입력, 모델링, 작동 방식, 영향을 받는 결정 등을 문서로 만들고 설명해야 함
- 모델 저장소 없으면 개발된 수많은 모델을 누가 만들었고, 어떤 조직에서 사용하고, 어떻게 수정되는지 추적할 수 없다. 결국 예전 버전 모델 계속 사용되고, 그로 인해 전체적인 성능 떨어뜨릴 수 있음
34. 빅데이터 기반 데이터 활용 시나리오 - 예측
: 운전자의 주행이력과 패턴 분석해 최단 또는 최적 경로 제안하는 주행 시스템
..외외에도 탐구적 분석 및 이상 탐지, 진단, 예측 및 상황분석 시나리오, 대응 및 최적화 등에 활용
35. 데이터 분석 결과 및 인사이트의 활용 기회 탐색하는 것
- 가치사슬 모형 : 기업 부가가치 생성 과정을 연결된 활동으로 나타낸 것. 기업의 경쟁적 지위 파악하고 향상시킬 수 있는 포인트 찾는데 유용
- 가치사슬 상 주요 활동에 연결된 활동들은 분석 결과와 그로부터 도출한 분석 인사이트 적용하기에 가장 적합한 관계
- 분석 결과의 일차적 활용이 가능한 활동들과 연관된 업무와 그 가치사슬에서 파생 활용이 가능한 분야 찾을 수 있음
- 목표 정의서에 명시되어 있는 활용 방안 확대 시행하거나 해당 분석모형과 유사 혹은 연관 업무의 가치사슬에 새로운 비즈니스 기회 발굴 가능
36. 서비스 모형 정의
- 서비스 명칭, 서비스 설명, 사용자, 제공 가치 및 주요 기능 등의 항목들 기술
- 일반적으로 투입-변환-산출(IPO) 프로세스 관점에서 정의 가능
38. 분석 결과 전달에서 중요 - 스토리텔링
- 사용자와 의사소통에 있어 중심적인 역할 수행
- 알리고자 하는 내용을 흥미있고, 보다 생생한 이야기로 전달하는데 목적
- 문제 상황 디자인, 문제 해결 과정과 결과의 해석에 대한 전개
39. 모델 개발 전 처음 세웠던 계획은 예측정확도 95% 이상, 모델 실제 개발해보고 나서 얻은 결과 75%
- 성능이 일정수준 이상으로 편차가 지속적으로 하락하는 경우, 리모델링 주기적으로 수행
- 미달했으나 사용되지 않은 다른 추가적인 데이터 원천으로부터 새로운 변수 추가
- 모델 평가 위한 데이터 구분에 오류 없는가 확인
- 전체 대상 중 예측 정확도 낮은 일부 데이터가 어디인지 주로 오차 발생되는 곳을 찾아 새로운 모델링 기법이나 변수 반영 방법 검토
40. 모델 성능 모니터링
- 이벤트 등급별로 알람 통해 이벤트 모니터링에서 성능 관리하도록 한다
- 성능 모니터링은 성능 측정 항목별 임계치 설정
- 분석 모델 모니터링이 수작으로 수행되면 개발된 모델 많아질수록 과업 늘어나므로, 모형의 성능 데이터를 DB화하여 자동으로 모니터링하고 이상 시 관리하는 프로세스 수립하는 것이 효율적
41. 범주형 예측 모델
: 모형의 성능 추적 모니터링 척도로 추적신호(Tracking Signal; TS)을 이용하는 분석모델
43. 실시간 감시, 진단 및 조치, 성능튜닝
: 장애관리 및 성능관리를 위해 활용하는 모델 모니터링 전문 도구의 주요 기능
44. 분석 모형 리모델링
- 데이터 마이닝의 경우 분기별 실시, 시뮬레이션의 경우 주요 변경 이뤄지는 시점에 실시
- 데이터 마이닝은 동일 데이터 이용해 학습 다시 수행하거나 변수 추가해 학습 다시 수행
- 시뮬레이션은 이벤트 발생 패턴의 변화, 시간 지연의 변화, 이벤트 처리하는 리소스 증가, 대기 우선순위, 자원 할당 규칙 변화 등을 처리
45. 기존 분석 모델의 리모델링
- 기존 모델의 평균적 성능 확인해 최근 성능에 대한 변동성 여부를 집중적으로 관찰한 후 리모델링의 필요성을 결정
- 개선 모델 개발 위한 알고리즘 적용 시, 개선 모델은 기존 모델보다 높은 성능 갖도록 파라미터 조정하여 수행
46. 개선 데이터 선정 시 고려 사항
*데이터 오류율 점검 : 기존 데이터 집합에 대해 실시
*신규 영향 데이터 : 조건 변화나 가중치 변화 시 계수값 조정 또는 제약조건 추가로 재조정
47. 개선 모델 개발 위한 알고리즘 적용
- 개선 알고리즘 적용 : 기존 분석 모델 개발할 때와 동일한 절차로 수행
- 훈련, 검증, 평가로 데이터 분할 시, 신규로 추가된 데이터가 반영될 수 있도록 해야 함
48. 분석 기법별 리모델링 시 고려사항
- 데이터 마이닝 : 최신 데이터 적용이나 변수 추가 방식으로 분석모형 재조정
- 시뮬레이션 : 업무 프로세스 KPI 변경 또는 주요 시스템 원칙 변경, 발생 이벤트 건수 증가에 따라 성능 평가하고 필요 시 재조정
- 최적화 : 조건 변화나 가중치 변화 시 계수 값 조정 또는 제약조건 추가로 재조정
*드롭아웃 : 모델 과대적합 방지 위한 방법
49. 모델 전면 리모델링 결정에 이용하는 모델 개선을 위한 접근 방식
- 하향식 접근 방식 : 비즈니스 모델 분석 통해 경쟁력 강화의 핵심 기회 식별
- 상향식 접근 방식 : 모델 개선의 기회를 특정 업무 영역에서 발굴
- 사례 벤치마킹 : 산업별, 서비스별 분석 테마 후보 그룹을 통해 분석 기회에 대한 아이디어 얻고, 브레인스토밍을 통해 적용할 기회 도출하는 방법 / 해당 비즈니스에 적합한 사례 조사하고, 해당 사례의 장단점을 분석해 빅데이터 분석모델을 개선하는 것
50. 리모델링 주기
- 업무 특성에 따라 차이가 있으나, 일반적으로 초기에는 모형 재조정 자주 수행하고 점진적으로 그 주기 길게 설정
- 성과 모니터링 결과 일정 수준 이상으로 성과 편차 지속적으로 하락하는 경우, 리모델링을 주기적으로 수행
- 모델링 결과를 정기적(분기, 반기, 연 단위)으로 재평가해 결과에 따라 필요 시 분석 모델 재조정