1장. 분석 모형 설계
1. 비지도 학습 : 데이터에 라벨이 붙어 있지 않은 경우. 학습 데이터 X, 입력 데이터 O
① 기존에 알고 있는 네트워크 데이터 패킷들의 문제점 이용해 네트워크 데이터 패킷 문제점 종류 분석
② 기존 파산회사와 파산하지 않은 회사들의 재정상태 데이터 기반으로 회사 파산 여부 예측
③ 슈퍼마켓에서 본인과 다른 고객들의 구매이력 바탕으로 할인쿠폰 발행
④ 문제 발생한 항공기 대상으로 수리 기간 추정(문제 발생 항공기의 문제 발생여부)
⑤ 고객의 과거 거래 구매 패턴 분석해 고객이 구매하지 않은 상품 추천(상품 구매 정보)
3. 머신러닝
지도(분류) | 비지도(설명) | 강화 | |||
분류 | - 로지스틱 회귀 - 의사결정 나무 - 서포트 벡터 머신 - 랜덤 포레스트 - K-NN - 인공 신경망 |
군집화 | - 계층군집분석 - K-Means Clustering - 마르코프 체인 몬테카를로 - 기대 최적화 - SOM |
보상 | - Q-러닝 - 시간차 학습 |
회귀 | - 선형 회귀 - 로지스틱 회귀 - K-NN - 인공신경망 |
차원 축소 | - 주성분 분석 - 커널 PCA - 요인분석 - 다차원척도법 |
||
연관규칙 | - 어피리오리 - 빈출 패턴 성장 |
*분류 : 반응 변수가 범주형인 경우 예측모형의 주목적 ~ 신용카드 고객 파산 여부 예측 위해 고객 신용도, 나이, 직업 등의 변수 사용해 모델 수립
10. 딥러닝
: DNN, CNN, RNN, Autoencoder, LSTM
14. 데이터 마이닝 기능
- 분류
- 추정
- 예측
- 연관분석 : 물건 배열, 카탈로그 및 교차판매 등에 적용하기 적합한 데이터 마이닝 기법 / 일련의 거래, 사건들 간의 규칙 발견해 조건과 반응의 형태(If-Then구조)로 분석 결과 연관성 파악
- 군집
- 기술 : 데이터가 암시하는 바를 설명 가능 & 설명에 대한 답을 찾을 수 있어야 함
19. 빅데이터 분석모형 구축 절차 - 데이터 수집/처리
- 분석 데이터 선정 시, 분석 모델 개발을 위해 필요할 것으로 예상되는 최대 항목 도출
- 데이터 현황분석 중 파악되어야 하는 항목 : 충실도, 이상값, 분포도, 오류율
21. 알고리즘 선정 단계 - 데이터 유형별 고려해야 할 알고리즘
- 이미지 : DNN, CNN, RNN
- 링크드 : 웹 상에 존재하는 데이터를 개별 URI로 식별하고, 각 URI에 링크 정보 부여함으로써 상호 연결된 웹을 지향하는 모형 / 네트워크 분석, 밀도 분석 알고리즘(그래프 기반 분석 알고리즘)
- 정형 데이터 : 데이터 마이닝, 지도 학습 계열
23. 데이터 분석에 있어 도메인 지식이 가장 중요. 분석 결과는 도메인 지식 바탕으로 모델 성능 개선. 이 때, 변수나 변수 간 상호관계를 추가 또는 삭제하는 경우도 있지만 대개는 파라미터를 조정
24. 빅데이터 분석모형 선점 검토요소
- 지도 학습(분류형 모델) : 분류 정확도, 평균 오차율, 오류 재현율
- 비지도 학습(설명형 모델) : 집도 소속률, 데이터 밀도 및 군집도
- 기타(텍스트 마이닝) : 텍스트 매칭률, 문서 분류율
25. 챔피온 모델
: 분석 모형에 대해 최종 검토한 후 최종 모델 선정. 해당 분석모형은 챔피온 모델로 등록되며 추후 빅데이터 분석모형 개선 작업 통해 업데이터 및 새 모형으로 교체될 수 있다.
27. 자율학습
: 출력값에 대한 정보 없이 학습하는 형태이기 때문에 사전 정보 없는 상태에서 유용한 정보와 패턴을 탐색적으로 발견하고자 하는 방법
29. 맵리듀스
: 하둡분산파일시스템에 저장된 대용량의 데이터들을 대상으로 SQL 이용해 사용자의 질의 실시간으로 처리하는 기술
~Apache Hive, Apache Tajo, 임팔라, Presto, HAWQ, Apache Drill등이 있다.
33. 머하웃
: 하둡 에코시스템에서 데이터 마이닝 기능 수행하며 실시간 SQL질의는 임팔라, 타조에서 수행
36. 데이터 마이닝에서 구축용, 검정용, 시험용 데이터로 분리하는 이유
- 과잉 또는 과소 맞춤들에 대한 미세조정
- 편향 제거된 모델 구축하고 평가하는데 소요되는 시간 단축
37. 교차확인
: 주어진 데이터를 k개의 하부집단으로 구분해 k-1개의 집단을 훈련용으로 나머지를 검증용으로 설정해 학습. k번 반복 측정 결과를 테스트를 통해 얻은 MSE값들의 평균낸 값을 최종값으로 사용해 주로 10-fold 교차분석을 많이 사용
38. 잭나이프 재표본
: 추정량의 분산 추정하기 위한 반복법 중 하나. 부트스트랩 기법의 근간이 된 방법. 전체 데이터를 데이터 크기(n)만큼 분할한 다음 하나씩 번갈아가면서 제외하는 방식으로 재표집 수행하여 추정량의 오차범위 추정
- train set n-1개, test set은 1개
- k=n인 k-fold 교차검증과 유사
- 재표집된 데이터에 대해 각각 성능 측정한다면 평균 통해 모델의 성능을 평가할 수 있다.
- 홀드아웃은 반드시 비율로 나눠야하는 개념 아니며, 동일한 데이터 추출되도록 홀드아웃 반복하면 유사하게 분할 가능
39. 데이터 분할 절차
- 모델링 성능에 대한 정교한 검증 위해 교차검증 방법 수행 가능
- 훈련 데이터 활용한 분석모형 모델링, 평가데이터로 모형 성능평가, 최적 분석모형 선정의 절차 따름
- 최적의 분석 모형 = 모형의 성능평가 결과가 기준치에 부합하거나 목적에 적합하다고 판단되는 모형(분석 정확도가 가장 높은 모형X)
2장. 통계 분석기법
1. 회귀모형의 변수선택 방법
- 모든 가능한 조합의 회귀분석
- 단계적 변수 선택 방법
- Lasso 회귀분석
- 가중치의 절댓값의 합 최소화하는 것을 제약조건으로 추가하는 기법
- 릿지 회귀에서 가중치가 0에 가까워질 뿐, 실제로 0이 되지 않는다. 라쏘에서는 중요하지 않은 가중치는 0이 될 수도 있다.
- 자동적으로 변수선택하는 효과가 있다
- Lambda값으로 penalty 정도 조정
*주성분분석 : 서로 상관성 높은 변수들의 선형결합으로 주성분이라는 새로운 변수 생성
= 기존 상관성 높은 변수들을 요약, 축소하는 기법
2. 결정계수(R²)
- 총 변동 중에서 회귀모형에 의해 설명되는 변동이 차지하는 비율
- 회귀모형에서 입력 변수 증가하면 결정계수도 증가
- 다중 회귀분석에서는 수정된 결정계수 값을 사용하는 것이 적절
- 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소한다.
3. 일반화 선형모형은 선형 회귀모형에서와는 다르게 종속변수가 정규성을 만족하지 못할 때 사용되며, 종속변수에 적절한 함수를 사용해 독립변수와 선형 결합으로 모형화는 방법. 또한 선형 회귀모형은 일반화 선형모형의 일부로 포함될 수도 있으며, 적절한 함수를 항등 함수로 사용한 것이다.
4. 다중 회귀분석에서 가장 적합한 회귀모형 찾기 위한 과정의 설명
- 잔차의 독립성, 등분산성 그리고 정규성을 만족하는지 확인해야 한다
- 회귀분석의 가설검정에서 p값이 0.05보다 작은 값이 나와야 통계적으로 유의한 결과
- 회귀식에 대한 검정은 H0 : 독립변수의 기울기(회귀계수) = 0, H1 : 독립변수의 기울기 <> 0
5. 데이터 정규성 확인
*정규성 : 오차 분포가 정규분포 만족, 대각방향으로 직선의 형태
- 히스토그램
- Q-Q plot
- Shaprio-Wilks test
6. 카이제곱 분포 활용하는 검정
*카이제곱 분포 : 표준정규분포를 제곱 / 자유도 v인 카이제곱분포를 X²을 v개 합한 것의 분포 / 범주형인 두 변수 관계 알아보고자 실시하는 분석 기법
*카이 : 평균 = 0, 분산 = 1 인 표준정규분포
- 독립성 검정
- 동질성 검정
- 적합성 검정
7. 분할표를 통한 분석
- 범주형 변수 개수 따라 1원, 2원, 다원 분할표로 표시
- X, Y 모두 범주형 자료인 경우에만 사용 가능
- 보통 교차표 통해 관측도수와 기대도수 활용해 검정하는 방법 사용
*상대위험도와 오즈비는 결과적으로 다른 개념
상대위험도 : 관심집단 위험률 / 비교집단 위험률
오즈비 : 성공 확률/실패 확률
9. 전진선택법
- 상수항만 포함된 모형에서 출발해 설명력이 좋은 변수 하나씩 추가
- 이해하기 쉽고, 변수 개수 많은 경우에도 사용 가능
- 변수값의 작은 변동에도 그 결과 크게 달라져 안정성이 부족
10. 다중회귀분석
- 모형 유의성 : F-통계량으로 확인 but p-val>0.05면 해당 회귀모형이 통계적으로 유의하다고 볼 수 X
- 계수 유의성 : t-통계량
- 설명력 : R²
- |회귀계수| 클수록 종속변수에 더 큰 영향 주므로 회귀분석 결과 통해 여러 변수 중 어떤 독립변수가 종속변수에 대한 영향력이 큰지 파악할 수 있다.
11. 귀무가설 H0
- 독립성 : 독립적이다 = 연관 없다
- 가설과 해석은 다르지만 검정통계량 계산 방법은 동질성 검정과 차이 없다
- 모집단 범주화하는 기준이 되는 두 변수 A, B가 서로 독립적으로 관측값에 영향을 미치는지 여부 검정
- 적합성 : 적합하다
- 동질성 : 같다
- 검정통계량 大 : 귀무가설과 반대 = 대립가설
12. 교차표 해석
*교차표 : 여러 개의 범주형 변수 기준으로 빈도를 표 형태로 나타낸 것
Y=1 | Y=2 | Total | |
X=1 | 8 | 4 | 12 |
X=0 | 42 | 96 | 138 |
Total | 50 | 100 | 150 |
- 이 교차표는 X와 Y의 연관성 분석하기 위해 사용되었다
- X에 따른 그룹별 Y=1이 될 상대위험도(=두 집단 간 성공확률비)는 {(8/12)/(42/138)} = 46/21로 추정된다.
- 오즈 = 성공/실패
- Y=1이 될 오즈 중 X=1인 그룹 = {(8/12)/(4/12)}
- Y=1이 될 오즈 중 X=0인 그룹 = {(42/138)/(96/138)}
- OR=Odds(X=0)/Odds(X=1) = (42/96)/(8/4) = 7/32, Y=1이 될 오즈는 X=1인 그룹에 비해 X=0인 그룹이 7/32배 높다.
- OR=Odds(X=1)/Odds(X=0)=(8/4)/(42/96)=32/7, Y=1이 될 오즈는 X=0인 그룹에 비해 X=1인 그룹이 32/7배 높다.
13. 반응변수Y가 범주형인 경우에 적용되는 회귀분석 모형은?
- 분할표 분석
- 카이제곱 검정
- 로지스틱 회귀분석 : 개체가 반응변수의 각 범주에 속할 확률이 얼마인지 추정, 추정확률을 기준치에 따라 분류하는 목적으로 사용됨
17. 변수 선택
- 수정 결정계수 : 평균제곱오차가 가장 작은 축소모형을 선택하는 방법. 모형의 간명성, 설명력 동시 고려
- Mallows's Cp : 예측식이 가진 수행능력을 예측 값의 변이를 기준으로 평가하기 위해 예측값에 대한 MSE 고려
- Akaike 정보통계량 : 정확도와 간명성 사이의 상충을 조절하려는 방법. 비슷한 SSE를 갖는 두 모형에 대해 AIC는 적은 변수를 갖는 모형에 대해 가산점 부여
- BIC는 변수 많을 수록 AIC보다 더 페널티 가하는 성격. AIC보다 변수 증가에 더 민감
18. 각 개체의 영향력 진단
- 쿡의 거리 : 관측 개체 하나가 제외되었을 때, 최소제곱 추정치 벡터의 변화를 표준화한 측도
- 영향점 : 비교할 대상이 있어 그 값들에 비해 값이 매우 크거나 작아 회귀계수 추정값을 변화시키는 관측개체
- |DFBETAS|이 유난히 큰 관측개체 → 해당 회귀계수의 추정에 대해 큰 영향력을 행사하는 것으로 간주한다
- |DFFITS| > 기준값 → 높은 영향력으로 간주
19. X가 구매여부(Yes, No), Y가 월 소득(0~3백만원). 이때 별도 전처리 없이 고려될 수 있는 분석방법
: Y가 0보다 큰 연속형 변수이기 때문에 실제 Y의 분포에 따라 감마, 선형, 다항 회귀분석은 고려될 가능성 있지만, Y가 이산형 변수 아니라서 별도의 전처리 없이 고려될 수 없다
23. 시계열의 요소분해법
: 시계열 자료가 몇가지 변동들의 결합으로 이루어져 있다고 보고, 변동 요소별로 분해해 쉽게 분석하기 위한 것
24. 시계열분석 모델링
- 모델링에 기반한 방법 / 데이터에 기반한 방법
- 데이터의 패턴이 시간에 따라 자주 바뀌는 경우 유용하게 사용할 수 있는 방법
- 모델이 상대적으로 간단하고 계산량이 많지 않다
- 데이터가 가정에 잘 맞을 경우 신뢰성이 있는 예측값을 얻을 수 있다
- 특별한 모형의 형태 없이 데이터로부터 직접 예측값을 추정하는 방법이므로 시계열 내 잡음 제거함으로써 숨겨진 패턴 볼 수 있다.
- 단순이동평균법 : 데이터가 추세, 계절성 가지지 않을 때 적합
- 다른 분석모형과 같이 탐색 목적, 예측 목적으로 나눌 수 있다
- 잡음 : 무작위적 변동, 일반적인 원인 알려져 있지 않다
- 시계열 분석 주목적 : 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소 설명할 수 있는 모델 결정하는 것
28. 시계열의 형태
- 계절변동 : 순환변동과 달리 순환주기 짧다
- 체계적 변동 : 추세, 순환, 계절
29. 다변량 분석
- 여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고, 한 번에 분석하는 기법
- 다변량 분포 : 평면상의 면적이 아니라 공간상의 입체적 표현 필요
- 여러 변인들의 효과를 동시 분석하기에, 종속변인에 대한 효과가 개별평균이 아니라, 여러 변인들 간의 선형조합으로 해석한다.
30. 차원축소 기법
- 주성분 분석
- 요인분석
- 다차원 척도법 특이값 분해
- 독립성분 분석
31. 단순 선형 회귀분석
- 독립변수가 이진형이라면 해당 변수에 대한 회귀계수의 유의성 검정은 독립변수에 따른 종속변수의 모평균 차이를 검정하는 것과 같다
- 선형 회귀분석 : 종속변수 범위 넓으면 이산형 변수에도 사용가능
- 독립변수와 종속변수의 상관계수가 0.8이면 설명력은 약 64%(0.8의 제곱)이다
- 해당 회귀모형 통계적으로 유의한 지 확인하기 위해 F-분포 사용(단순회귀이므로 t분포도 가능)
32. 주성분 분석
- 차원축소 방법 중 하나
- 비지도 학습
- 이론적으로 주성분 간 상관관계 없다
- 제1주성분은 변동 최대로 설명해주는 방향으로 변수들을 선형결합한 것
34. 검정법
- t검정 : 일표본, 이표본 모두 사용 가능
- 순위합검정 : 이표본
- F검정 : 이표본 이상
- 부호검정 : 일표본
35. 주성분 분석
- 분석을 통해 나타나는 주성분으로 변수들 사이 구조 쉽게 이해하기 어렵
- p개의 변수들을 중요한 m(<p)개의 주성분으로 표현해 전체 변동 설명하는 것으로 m개의 주성분은 원래 변수들의 선형결합으로 표현됨
- 차원 감소폭의 결정 : 전체 변이 공헌도, 평균 고윳값, scree plot 등 이용
- 이용 동기 : 차원의 저주. 데이터 차원이 증가할 때, 데이터 구조 변환하여 불필요한 정보 최대한 줄이는 차원 감소 방법 필요
- 다중공선성 문제 해결하기 위해 활용 : 변수들끼리 상관성 있는 경우, 해석상의 복잡한 구조적 문제가 발생하는데 이를 해결하기 위해 사용
- 다변량 자료를 저차원의 그래프로 표시하여 이상치 탐색에 사용
- 기여율 : 원 변수의 총 변동(각 변수들의 분산값 총합)분의 주성분 변수의 분산으로 총 변동에 대한 주성분의 설명력
36. Mann-Whitney Test, Kruskal-Wallis Test
- 두 검정 모두 주로 그룹별 순위 활용해 검정통계량 계산
- Kruskal-Wallis Test : 분산분석 대신할 수 있는 비모수 검정 방법
- Mann-Whitney Test : t-검정을 대신할 수 있는 비모수 검정방법
- 모수적 검정에서 정규성 만족하지 못할 경우 사용됨
- Kruskal-Wallis Test는 분산분석과 마찬가지로 귀무가설 기각할 경우 사후검정 수행
37. 주성분 개수 선택 방법
- 전체 변이 공헌도 : 전체 변이의 70~90% 정도가 되도록 주성분의 수 결정
- 평균 고윳값 방법 : 고유값 평균 구한 후 고유값이 평균값 이상이 되는 주성분 선택
- 주성분은 주성분 구성하는 변수들의 계수 구조 파악해 적절하게 해석되어야 하며, 명확하게 정의된 해석 방법이 있는 것은 아니다
39. 요인분석에서 공통성에 대한 설명
- (요인 적재값)² = 해당 변수가 요인에 의해 설명되는 분산 비율
- 요인행렬 : 요인들에 대한 모든 변수의 요인 적재값을 모은 행렬
- 고유값 : 각 요인에 대한 모든 변수들의 요인 적재값 제곱의 합을 의미
- 공통성 : 여러 요인 설명할 수 있는 한 변수의 분산의 양을 백분율로 나타낸 것
- 요인 적재값 : 변수와 해당 요인간의 상관계수
41. 판별분석 vs. 군집분석
- 판별분석
- 두 개 이상의 모집단에서 추출된 표본들의 정보 활용해 이 표본들이 어떤 집단에서 추출된 것인지 결정 기준을 찾는 분석법
- 그룹 특성 파악해 새로운 대상이 어디에 속할 것인지를 결정
- '집단의 수-1'과 '독립변수의 수' 중 더 작은 값만큼 만들어짐
- 가정 : 독립변수 X가 다변량 정규분포를 이룬다
- 수행할 데이터의 종속변수에 의해 범주화되는 그룹들의 분산-공분산행렬이 동일해야 한다
- 판별함수에 포함될 독립변수 선택하기 위한 방법 중 동시입력 방식 : 모든 독립변수들에 대한 계수 동시 계산
- 군집분석 : 동일 집단 내에서는 유사성 크고, 다른 집단 간엔 차이성 크도록 데이터 분류
- 공통점 : 모두 관측값 분류
42. 요인분석
- 변수가 간격, 비율 척도로 측정되어야 함
- 요인 추출방법 : 주성분 분석, 공통요인 분석
- 공통성 : 추출된 요인들이 그 변수의 정보(분산)을 얼마만큼 설명할 수 있는지 의미. 0~1 사이 값
44. 판별분석에서 독립변수 5, 집단 수 9일 때 사용되는 판별식의 수
9-1 = 8 > 5 : 더 작은 값만큼 만들어지므로 판별식의 수는 5
46. 비모수적 방법
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정
- 분포 모수에 대한 가설 설정X
- 분포 형태에 대해 가설 설정
- 자료가 정규분포 아니거나 표본 크기 작은 경우, 분포에 대한 가정 필요X
- 많은 표본 추출하기 어려운 경우에 사용하기 적합
- 순위나 부호에 기초한 방법으로 이상치 영향을 모수적 검정에 비해 덜 받을 수 있으나, 이상치 검출에 효과적이라고 말할 수 없음
- ex) 만-위트니 U검정, 런 검정, 윌콕슨의 순위합 검정
*카이제곱 : 모수적 검정
49. Willcoxon 검증
- 두 그룹이 짝을 이루고 있지만 정규성 만족하지 못할 때 적용되는 분석법
- 짝을 이룬 표본의 t검증과 유사
50. 런의 개수
남 여 여 여 남 남 여 남 여 여 남 남 여 여
→ (남 / 여여여 / 남남 / 여 / 남 / 여여 / 남남 / 여여)
→ 8개
*t검정, F검정
- 공통점
- 둘 다 모수 검증(정상분포, 등분산성 가정 전제)
- 둘 다 차이 검증(t검증 : 평균 vs. F검증 : 분산)
- t검증
- 두 집단 평균 차가 통계적으로 유의한지 확인하는 검증방식
- 유의하기 위해서는 차이 값 大, 표준편차 小, 표본 크기 충분히 大
- 종류 : 단일표본 t검증(모집단1, 표본집단1), 독립표본 t검증(모집단2, 표본집단2), 대응표본 t검증(모집단1, 표본집단2 - 동일 집단 사전/사후검사)
- p값 작고, t값 클수록 H1이 옳다 = 두 표본 간 유의한 오차 존재
- F검증(분산분석, anova)
- 분산 차이가 통계적으로 유의한지 확인하는 검증 방식
- t검증 활용해 반복된 비교했을 때 발생하는 오류 배제
- F검증 : 2개 집단 / Anova : 3개 이상 집단
ex) 유의수준 .05에서 3집단 차이 확인할 때
F검증 : A-B-C 간의 차이 한번에 비교
t검증 : A-B, B-C, C-A로 세 번 검증
→ 가설 잘못 기각할 확률(1종 오류) 증가
→ 세 집단 이상 비교하더라고 '상호작용'을 가정하지 않았다면, t검증 활용해 검증하는 것이 옳음
→ F검증 통해 집단 간 차이 유의하더라도, 어떤 집단 간의 차이인지 명확히 확인하기 위해 사후검증 실시
참고자료 : https://blog.naver.com/gracestock_1/120200571791
3장. 정형 데이터 분석기법
1. 기술
: 데이터 마이닝 기능 중 사람, 상품에 관한 이해 증가시키기 위해 데이터가 가지고 있는 특징 나타내고, 설명에 대한 답 제공할 수 있는 것
2. 선형회귀모형
: Y가 연속형인 경우, 독립변수가 종속변수에 미치는 영향 추정할 수 있는 모형
*고객 파산 여부(Yes/No) 예측은 분류기법인 로지스틱 회귀, 랜덤포레스트, 서포트벡터머신 사용
5. 범주 불균형 문제
: 분류 모형을 구성하는 경우, 예측 실패 비용이 큰 분류 분석의 대상에 대한 관측치가 현저히 부족해 모형이 제대로 학습되지 않는 문제 발생
6. 독립변수의 선형 결합 이용해 사건 발생 가능성 예측하는 로지스틱 회귀분석
- 카테고리가 존재하는 자료로 회귀분석 수행 시, 로지스틱 회귀분석 활용
- 종속변수 Y범위 : [0, 1]
- 1, 0의 값 가지는 Y 정확하게 예측 시, 로지스틱 회귀모형의 cost는 0에 가까운 매우 작은 값 가짐
8. CART
- 의사결정나무 알고리즘
- 목표변수가 이산형(범주형)인 경우 지니지수, 연속형인 경우 분산감소량 사용
9. 베이지안 네트워크 ~ 베이즈 정리
: 랜덤 변수의 집합과 방향성 비순환 그래프 통해 그 집합을 조건부 독립으로 표현하는 확률의 그래픽 모델로 그래프의 각 마디는 변수를, 마디를 연결하는 호는 변수 간의 조건부 의존성을 표현
나이브 베이즈 ~ 연쇄법칙(곱셈공식)
: 클래스에 대한 사전 정보와 데이터로 추출된 정보 결합해 하나의 속성 값을 기준으로 다른 속성이 조건부 독립이라는 전제 통해 해당 속성 값이 클래스의 분류에 미치는 영향 측정
10. 의사결정나무모형의 학습 방법
- 이익도표 또는 검정용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가
- 분리변수의 P차원 공간에 대한 현재분할은 이전 분할에 영향을 받는다
11. 의사결정나무모형
- 대표적 적용 사례 : 대출신용평가, 환자 증상 유추, 채무 불이행 가능성 예측 등
- 불순도 예측인 엔트로피 개념은 정보이론의 개념을 기반으로 하며, 그 의미는 여러가지 임의의 사건이 모여있는 집합의 순수성 또는 단일성 관점의 특성을 정량화해서 표현한 것이다
- 핵심적인 공통개념은 하향식 기법이 사용되며, 각 진행단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값이 선택한다.
12. SVM
- SVM은 기계학습 분야 중 하나로 패턴인식, 자료 분석 등을 위한 지도학습 모델
- 분류, 예측에 모두 사용 가능한 지도학습 기법
- 저차원, 고차원 데이터에 대해서 모두 잘 작동
- 데이터 전처리와 매개변수 설정에 따라 정확도 달라질 수 있다.
- 데이터가 사상된 공간에서 경계로 표현됨
- 공간 상에 존재하는 여러 경계 중 가장 큰 폭 가진 경계 찾아 분류 문제 해결
- 주어진 데이터 집합 바탕으로 새 데이터가 어떤 범주에 속할 것인지 판단하는 비확률적 이진 선형 분류 모델
- 예측 이해와 모델에 대한 해석 어렵
- 결정 초평면 : 각 그룹 구분하는 분류자
- 텍스트 분류 : 문서를 두 개 이상의 범주 중 하나로 분류
- 하나의 속성 값을 기준으로 다른 속성이 독립적이라 전제했을 때 해당 속성 값이 클래스 분류에 미치는 영향 측정
- 두 확률 변수의 사전 확률과 사후 확률 사이 관계 나타내는 정리를 기본 개념으로 사용
13. 계층적 군집분석
- 범주형 자료 거리 계산 : 코사인 거리
- 수치형 자료 거리 계산 : 맨하탄, 캔버라, 표준화 거리
15. min-max 정규화
: k-means clustering은 단순하고 빠르게 수행될 수 있지만 변수 크기에 영향 받음에 따라 군집 분석 수행하기 전에 정규화 과정이 필수다. 원데이터 분포 유지하면서 정규화가 가능한 방법이다.
16. K-means clustering
- 군집 이동 가능
- 초기 군집 중심 임의 선택
- 군집 개수 미리 선택
- 이상점에 영향 많이 받음
- 비계층적 군집분석
- 중심점과 군집화하고자 하는 점 간의 유클리디안 거리 최소화
19. 랜덤포레스트
: 전체 변수 집합에서 부분변수 집합 선택해 각각의 데이터 집합에 대해 모형 생성 후 결합하는 방식
: 자사 고객의 보험 갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품 종류 등의 정보 사용해 예측
: 분류분석 문제를 해결하기 위한 의사결정나무와 같은 방법론, 의사결정나무에서 나타나는 과대, 과소적합 문제 해결 가능
배깅
: 원데이터 집합으로부터 크기 같은 표본을 여러 번 단순 임의 복원추출해 각 표본에 대해 분류기 생성 후 그 결과 앙상블
25. 실루엣 계수
: 군집 모형 평가 기준 중 하나, 군집의 밀집정도 계산, 군집 내 거리와 군집 간 거리 기준으로 군집 분할 성과 평가
26. 계층적 군집
: 군집 개수 미리 지정하지 않아도 되는 장점으로 탐색적 분석에 사용하는 모형
: 미리 정하지 않고 n개 군집으로 시작해 점차 군집 개수 줄여나가 최종적으로 하나의 군집만이 남을 때까지 가장 가까운 두 군집들을 점진적으로 병합해 나가는 방법
30. 와드연결법
: 계층적 군집분석 수행 시, 두 군집 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집 형성하는 기법
31. 마할라노비스 거리
- 통계적 개념 포함된 거리
- 변수들의 표준편차와 더불어 변수 간 상관성 고려한 거리 측도
- 두 벡터 사이 거리/표본 공분산(산포 의미) → 그룹에 대한 사전 지식 없이는 표본 공분산 계산할 수 없음
32. 군집분석
- 군집 개수나 구조에 대한 가정 없이 데이터들 사이 거리 기준으로 군집화 유도
- 교차타당성 이용 : 군집 결과에 대한 안정성 검토 - 두 집단으로 나눠 각 집단에서 군집분석 후 합쳐 군집분석한 결과와 비교해 비슷하면 결과에 대한 안정성 있다고 할 수 있다
- 군집 분리 논리성 : 군집 간 변동 크기 차이 검토
- 명확한 분류 기준 존재하지 않거나, 기준 밝혀지지 않은 상태에서 유용하게 이용
34. 밀도기반 군집
: DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법
35. 순차 패턴
: 구매 순서 고려되어 상품 간의 연관성 측정되고, 유용한 연관규칙 찾는 기법
39. 향상도
: B 구매 고객 대비 A 구매한 후 B 구매하는 고객에 대한 확률 의미
: 1보다 크면 해당 규칙이 결과 예측하는데 있어 우수하다는 것을 의미
: P(A∩B) / P(A)P(B)
40. 연관분석
- 목적변수 없어 분석 방향이나 목적 없어도 적용 가능
- 분석 위한 계산 상당히 간단
- 적절한 세분화로 인한 품목 결정이 장점 but 너무 세분화된 품목은 의미 없는 결과 도출
44. FP-Growth
: 후보집합 생성 시 많은 시간 소요되는 Apriori 알고리즘 약점 보완하기 위해 후보집합 생성 없이 연관 규칙 발견하도록 고안된 알고리즘
49. SOM
: 역전파 알고리즘 사용하는 인공신경망과 달리 단 하나의 전방 패스 사용해 속도 매우 빠르다
50. 로지스틱 회귀분석
- Y가 범주형인 경우 적용되는 회귀분석모형
- exp(x1) : 나머지 변수가 주어질 때 x1이 한 단위 증가할 때 마다 성공에 대한 오즈가 몇 배 증가하는지를 나타낸다
- 시그모이드 함수 : S자형 곡선 형태, x값 입력되면 x가 0에 해당할지 혹은 1에 해당할지에 대한 확률 출력
- 로짓변환 : 범주형 변수 Y → -무한~+무한 사이값
4장. 딥러닝
2. 기울기 소실 문제
: 다층 신경망 모형에서 은닉층 개수 너무 많아 역전파 과정에서 앞쪽 은닉층 가중치 조정 이뤄지지 않아 신경망 학습이 제대로 이뤄지지 않는 경우
3. 포화 문제
: 인공 신경망 모형에서 역전파 진행함에 따라 각 노드 연결하는 가중치 절대값이 커져 조정이 더 이상 이뤄지지 않아 과소적합이 발생되는 문제
5. 신경망 모형
- 은닉층의 뉴런 수, 개수 정하는 것은 신경망 설계하는 사람의 직관과 경험에 의존.
- 역전파 알고리즘 : 신경망 모형의 목적함수를 최적화하기 위해 사용, 연결강도 갱신하기 위해 예측된 결과와 실제값 차이인 에러 통해 가중치 조정하는 방법
- 신경망 모형은 변수 수 많거나 입출력 변수 간 복잡한 비선형 관계 존재할 때 유용, 잡음 민감도 낮다는 장점 갖고 있음
- 뉴런은 입력신호의 가중치 합 계산하여 임계값 비교하며 활성화 함수 이용해 출력 결정
- 인공신경망은 다층퍼셉트론을 의미. 다층 퍼셉트론에서 정보릐 흐름은 입력층에서 시작해 은닉층 거쳐 출력층으로 진행
7. 인공신경망의 최종 목표는 일반화된 가중치 행렬 계산
- 가중치는 입력신호가 결과 출력에 주는 영향도를 조절하는 매개변수, 각 입력신호에 고유한 가중치 부여
- 가중치 클수록 해당 신호 중요
=> 로지스틱 회귀모형에서 회귀계수와 유사하게 해석됨(입력변수가 결과값에 주는 영향도에 비례)
8. Softmax 함수
: 단층신경망인 퍼셉트론에서 최종 목표값은 활성함수에 의해 결정되는데 다양한 활성함수(Step, Sign, Sigmoid, Linear) 중 출력값이 여러 개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수
10. 신경망 모형 개발 시 고려해야할 사항
- 연속형 변수의 경우, 그 분포가 평균을 중심으로 대칭이 아니면 좋지 않은 결과 도출하기 때문에 로그 변환, 범주화 등의 방법 이용해 데이터 전처리 진행
- 가중치 = 0 : 시그모이드 함수 선형, 신경망 모형은 근사적으로 선형 모형이 됨
- 가중치 증가 → 비선형 모형
11. 은닉층과 은닉노드
: 은닉노드 수 적절히 큰 값으로 놓고, 가중치 감소시키며 적용하는 것이 좋다
13. 딥러닝 알고리즘
ANN → DNN(CNN, RNN → LSTM: 장기의존성 문제 해결)
- DFN : 딥러닝에서 가장 기본적으로 이용되는 인공신경망으로 입력층, 은닉층(보통 2개 이상), 출력층으로 이뤄져 있음. 하지만 DFN은 단순히 현재 입력된 데이터를 입력, 은닉, 출력층의 순서로 전파하기만 하므로 시계열 데이터에 대한 정확한 예측 어렵다
- CNN
- 컨볼루션(특징 추출) 또는 필터링(데이터 사이즈 줄이고 노이즈 상쇄) 과정 통해 얻은 특성지도들은 ReLU와 같은 활성화 함수 거쳐 출력됨
- 필터(커널) : 이미지 특징 찾아내기 위한 공용 파라미터
- RNN
- 신경망 내부에 상태 저장해 시퀀스 형태의 데이터 입력 처리하고 앞으로의 데이터 예측
- 순차적이며 반복적인 데이터 학습하는데 특화
- 바로 직전 타임스텝의 정보만 저장
- 매 시점마다 심층신경망 연결되어 있을 경우, 오래 전의 데이터에 대한 기울기 값 소실되는 문제 발생해 학습 어려워짐 → LSTM으로 해결
- LSTM
- RNN의 장기의존성 문제 해결하기 위해 고안된 알고리즘. forget gate, input gate, output gate라는 새로운 요소를 은닉층의 각 뉴런에 추가
- 다양한 구조로 구성(단방향, 양방향, many-to-one, many-to-many, 단층, 다층)
- S.Hochreiter와 J.Schmidhuber가 1997년에 제안한 것
- 빠르게 학습에 수렴하는 특징 가지고 있다
- 신경망 내부에 상태 저장해 시퀀스 형태의 데이터 입력 처리하고 앞으로의 데이터 예측
- 입력값 : 데이터 개수, 시간축 차원, 입력되는 데이터 개수 = 3차원 구조
- 단기, 장기 기억 모두 보유
- 서로 상호작용 가능한 4개의 레이어로 구성
17. 활성화 함수
- 하이퍼볼릭 탄젠트 : 시그모이드 함수와 유사하지만, 입력신호를 -1~+1사이값으로 변환
- Leaky ReLU : ReLU가 가지는 뉴런이 죽는 현상 해결하기 위해 만들어진 함수로 입력값이 음수일 때 입력값의 1/10만 출력
18. 경사 하강법
: 함수 기울기 구해 기울기가 낮은 쪽으로 계속 이동시켜 극값(최적값)에 이를 때까지 반복
21. 출력 Feature Map
CNN의 합성곱 계층의 입력 Feature Map 5X5, Filter 2X2, stride 1
→ (입력 피처맵-필터)/스트라이드 + 1 = (5-2)/1 + 1 = 4
5장. 비정형 데이터 분석기법
2. 비정형 데이터 마이닝
- 구체적으로 미리 정의된 데이터 모델을 가지지 않는 데이터를 활용한 분석 이론
- 텍스트 마이닝, 웹 마이닝(내용, 사용, 구조 마이닝), 오피니언 마아닝, 사회연결망 분석 등
- 정형 데이터 마이닝(정제된 DB 기반으로 일정한 기준이 적용된 상식적인 범위에서 부분적인 데이터를 다룸)의 한계 뛰어넘을 수 있는 분석 기법
8. 사회연결망 분석
- 속성 : 응집력, 명성, 구조적 등위성(겹치는 이웃 수 보고 유사도 판단), 범위, 중계
- 개인과 집단들 간의 관계 위상구조와 확산 및 진화 과정을 계량적으로 분석한 방법론
- 제이콘 마리노가 처음 sociometry에 발표하지만, 사회연결망이라는 용어는 Barnes가 처음 내놓음
- 최근 : 독립 네트워크 사이 관계에 대한 사회 연결망 연구가 활발히 이뤄지고 있음
- 분석 방법
- 집합론적 방법 : 각 개체들 간의 관계 쌍으로 표현
- 그래프 이론 : 두 객체 간의 연결망은 두 점(노드)를 연결하는 선으로 표현
- 행렬 이용한 방법 : 각 개체를 행렬의 행과 열에 대칭적으로 배치하고 행렬로 표현한 것
- 위세 중심성 : 위세 높은 사람들과 관계 많을수록 자신의 위세 또한 높아지는 것을 특징으로, 영향력 높은 사람에 대한 단 하나의 연결이 그렇지 않은 다른 여러 사람들과 관계 맺는 경우보다 자신의 영향력을 키우는 기법
10. 텍스트 마이닝
- 웹 컨텐츠나 PDF, 마이크로소프트 오피스 파일, XML, 텍스트 파일 등 다양한 포맷의 문서로부터 텍스트 추출해 고품질 정보 도출하는 과정
- 정확도, 재현율 : 자연어 처리 분야에서 분석 결과 평가하기 위해 사용하는 방법론 가운데 대표적인 것
- 정확도 : 예T → 실T
- 재현율 : 실T → 예T
12. Corpus
: 데이터 마이닝 절차 중 데이터 정제, 통합, 선택, 변환의 과정 거친 구조화된 단계로 더 이상 추가적인 절차 없이 데이터 마이닝 알고리즘 실험에서 활용될 수 있는 상태
~ VCorpus : 메모리에서만 텍스트 문서 유지하고 관리하는 것
18. 정규 표현식
: 텍스트 데이터 전처리 단계에서 사용되며 HTML 문서로부터 가져온 코퍼스의 HTML 태그나 뉴스 시가의 기사개제 시간 등 코퍼스 내에서 계속해서 등장하는 글자들을 규칙에 기반해 한 번에 제거하는 방법
19. TDM(Term-Document Matrix)
: 텍스트 데이터 전처리 통해 도출되는 각 문서에서 등장하는 단어의 빈도 이용해 만들 수 있는 matrix
20. 텍스트 마이닝 기능
: 문서 요약, 문서 분류, 문서 군집, 특성 추출
21. Sparsity(희박성)
: tdm안에 0인 원소가 있는 %
22. 의미 연결망 분석
: 문서에 포함된 단어들의 구조적 관계를 통해 의미 분석
: 특정 텍스트 군집 내 의미적 프레임 파악하기에 용이하지만 많은 단어 간의 복잡한 네트워크가 생성되는 경우, 단어 간 또는 단어 군집 간 관계 직관적으로 규명하거나 시각화하기에는 다소 무리가 있다.
23. 텍스트 전처리 과정 토불정(대)어인
: 토큰화 > 불용어 > 대소문자 통일/정제, 정규화 > 어근 추출 > 텍스트 인코딩
24. 텍스트 군집화
: 벡터 연산 통해 단어 벡터 간 유사도 이용해 단어의 관계 파악하고 비슷한 의미 가지는 단어들의 위치 파악해 군집 형성
25. 사회연결망 분석 - 행렬
- 1원 : 행과 열에 같은 개체 배열
- 2원 : 행과 열에 다른 개체 배열
- 준연결망 : 상품 구매 고객 사이 직접적인 상호작용 관계 없더라도, 관계 인위적으로 설정해 고객과 고객 또는 상품과 상품 사이 관계 나타낸 네트워크
26. 사회연결망 분석의 중심성 측정 방법
- 연결정도 중심성 : 한 점에 직접적으로 연결된 점들의 합
- 위세 중심성 : 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합해 자신의 연결정도를 결정. ~ 보시나치 권력지수 : 위세 중심성의 일반적인 형태. 연결된 노드의 중요성에 가중치 둬 노드의 중심성 측정하는 방법
- 근접 중심성 : 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계의 합
- 매개 중심성 : 네트워크 내 한 점이 담당하는 매개자 혹은 중재자 역할의 정도 ~ 한 노드가 연결망 내 다른 노드들 사이 최다 경로 위에 위치할수록 그 노드의 중심성이 높은 것으로 측정