01 분석모형 평가 1. 성능 평가지표 : 분석 모델의 성능은 데이터와 학습 유형에 따라 평가 방식이 달라짐 ▶ 범주형 모델의 성능 평가 : 혼동 행렬을 이용한 평가지표와 ROC 곡선 등 1) 혼동 행렬 Confustion Matrix : 오차 행렬이라고도 함. 모델의 분류 분석 결과를 교차표 형태로 정리한 정오 분류표. 참, 거짓으로 분류하는 모델에 대해 만들 수 있고, 2가지 이상의 분류 문제에도 적용할 수 있음 FP(거짓긍정) : 실제로 거짓 but 모형은 참으로 판단하는 것. 1종 오류 FN(거짓부정) : 실제는 참 but 모형은 거짓으로 판단하는 것. 2종 오류 지표 정분류율 Accuracy : 바르게 분류한 데이터 / 전체 데이터 오류율 Error Rate : 틀리게 분류한 데이터 / 전체 데..
1장. 분석 모형 설계 1. 비지도 학습 : 데이터에 라벨이 붙어 있지 않은 경우. 학습 데이터 X, 입력 데이터 O ① 기존에 알고 있는 네트워크 데이터 패킷들의 문제점 이용해 네트워크 데이터 패킷 문제점 종류 분석 ② 기존 파산회사와 파산하지 않은 회사들의 재정상태 데이터 기반으로 회사 파산 여부 예측 ③ 슈퍼마켓에서 본인과 다른 고객들의 구매이력 바탕으로 할인쿠폰 발행 ④ 문제 발생한 항공기 대상으로 수리 기간 추정(문제 발생 항공기의 문제 발생여부) ⑤ 고객의 과거 거래 구매 패턴 분석해 고객이 구매하지 않은 상품 추천(상품 구매 정보) 3. 머신러닝 지도(분류) 비지도(설명) 강화 분류 - 로지스틱 회귀 - 의사결정 나무 - 서포트 벡터 머신 - 랜덤 포레스트 - K-NN - 인공 신경망 군집화..
빅데이터 분석기사 필기(데이터 에듀) 문제집을 요약정리한 블로그를 참고해 정리하였습니다. 01 빅데이터 개요 및 활용 1. 데이터의 이해 ▶ Data, 1646년 영국 문헌에 첫 등장. 라틴어 dare(주다)의 과거 분사형 ▶ 객체로서의 가치 + 다른 객체화 관계에서 숨은 가치 ▶ 데이터 유형 1. 정성적 : 비정형 데이터 2. 정량적 : 정형 데이터 ▶ 지식경영 : 기업의 생존과 성장은 인적 자원의 지식에 있다는 인식에서 비록(by Peter Drucker) 1. 핵심 이슈 : 암묵지와 형식지의 상호작용 2. 암묵지 : 숨은 지식 - 학습과 경험으로 몸에 익은 지식이라 개개인은 이해해도 타인에게 공유 어렵 3. 내면화된 지식을 조직의 지식으로 공통화 4. 형식지 : 형상화된 지식 - 구체적 형태가 있어..