사전 점수 결과 연속으로 3주씩 공부하고 시험보려니까 많이 힘들더라구요ㅎㅎ 그래도 이렇게 좋은 결과 볼 수 있어서 보람차더라구요!! 체감 상 빅분기 필기가.. 1, 2, 4과목은 그나마 문제은행식으로 나와서 아 비벼볼만 하겠구나 해서 걱정은 크게 안했는데 3과목이 진자..기출 문제들이 비슷한 문제가 하나도 없었어요.. 그래서 3과목 과락만 면하자 + 나머지를 전체 평균 60점 넘을 수 있게 맞자 라는 마음으로 임했습니당... 운좋게 턱걸이보다 조금 위인 안전빵 아닌 안전빵 점수 맞았네요ㅎㅎ 실기는 지금 하는 바쁜게 끝나면 천천히 마음의 여유를 가지고..준비해 볼 것 같습니다! 공부 방법 및 기간 기본 배경 : 수학과(통계 기초 개념 앎) + SQL 초중급? + ADsP, SQLD가지고 있음 문제집 : 데..
사전 점수 결과 ADsP보다 솔직히 열심히 하지는 않아서 또! 체감 상 너무 어렵더라구요 그래서 60점 못 넘길 줄 알았는데... +셤 끝나고 나오면서 우울하고 기대도 안했구요. 다음 시험 접수기간까지 알아봤어요..ㅋㅋㅋ 짠!! 4시에 딱 나오더라구요? 좋은 기운을 받아 내일 있을 빅분기 필기도 합격하기를 바라며... 공부 방법 및 기간 기본 배경 : 수학과(통계 기초 개념 앎) + SQL 초중급? 문제집 : 노랭이 + 인터넷에 퍼져있는 기출 pdf 파일들 + 아는 언니가 준 37, 38회 기출(39회차도 있지만 풀지 못했음) 공부 자료 : 제 블로그에 있는 정리자료 출처들 공부 방법 1. SQLD 개념 정리해두신 블로그 다시 옮겨 적으면서 외우기 + 한 단원씩 회독 후 노랭이 문풀 + 오답 2. 인터넷..
01 분석모형 평가 1. 성능 평가지표 : 분석 모델의 성능은 데이터와 학습 유형에 따라 평가 방식이 달라짐 ▶ 범주형 모델의 성능 평가 : 혼동 행렬을 이용한 평가지표와 ROC 곡선 등 1) 혼동 행렬 Confustion Matrix : 오차 행렬이라고도 함. 모델의 분류 분석 결과를 교차표 형태로 정리한 정오 분류표. 참, 거짓으로 분류하는 모델에 대해 만들 수 있고, 2가지 이상의 분류 문제에도 적용할 수 있음 FP(거짓긍정) : 실제로 거짓 but 모형은 참으로 판단하는 것. 1종 오류 FN(거짓부정) : 실제는 참 but 모형은 거짓으로 판단하는 것. 2종 오류 지표 정분류율 Accuracy : 바르게 분류한 데이터 / 전체 데이터 오류율 Error Rate : 틀리게 분류한 데이터 / 전체 데..
1장. 분석 모형 설계 1. 비지도 학습 : 데이터에 라벨이 붙어 있지 않은 경우. 학습 데이터 X, 입력 데이터 O ① 기존에 알고 있는 네트워크 데이터 패킷들의 문제점 이용해 네트워크 데이터 패킷 문제점 종류 분석 ② 기존 파산회사와 파산하지 않은 회사들의 재정상태 데이터 기반으로 회사 파산 여부 예측 ③ 슈퍼마켓에서 본인과 다른 고객들의 구매이력 바탕으로 할인쿠폰 발행 ④ 문제 발생한 항공기 대상으로 수리 기간 추정(문제 발생 항공기의 문제 발생여부) ⑤ 고객의 과거 거래 구매 패턴 분석해 고객이 구매하지 않은 상품 추천(상품 구매 정보) 3. 머신러닝 지도(분류) 비지도(설명) 강화 분류 - 로지스틱 회귀 - 의사결정 나무 - 서포트 벡터 머신 - 랜덤 포레스트 - K-NN - 인공 신경망 군집화..
01 딥러닝의 개요 딥러닝 : 인공신경망에 기반한 머신러닝의 한 갈래. 점진적으로 의미있는 표현 배우는데 강점. 데이터로부터 표현을 학습하는 새로운 방식 딥러닝에 잘 맞는 데이터는 비정형 데이터. 인지와 관련된 문제를 잘 해결하는 것으로 알려짐 음성, 이미지 인식과 자연어 처리, 헬스케어 등 다양한 분야에서 활용 딥러닝 알고리즘은 인공신경망부터 시작 → 심층 신경망 기법으로 발전 심층 신경망 방법론 심층 신경망 DNN 합성곱 신경망 CNN 순환 신경망 RNN 생성적 적대 신경망 GAN RBM 등 02 인공신경망 Artificial Neural Network 1. ANN의 개요 신경망 : 뇌 피질 영역에는 수많은 뉴런이 시냅스로 층층이 연결돼 있음. 인간 뇌는 100억 개 뉴런과 6조 개 시냅스의 결합체 ..
01 분류분석 1. 로지스틱 회귀분석 ▶ 반응변수(종속변수)가 범주형일 때 사용하는 회귀분석 모형. 만응변수가 특정 그룹에 속할 확률은 0~1로 예측. 예측 확률에 따라 가능성 높은 그룹으로 분류하는 지도학습 알고리즘 ▶ 원리 반응변수 Y가 범주형일 때, 일반적 선형회귀모형으로는 값을 바로 추정할 수 없음. Y는 0과 1로 구성된 이진형 반응변수이나, 우변의 식은 무한대의 값을 가지기 때문 로지스틱 회귀분석에서는 범주형 변수 Y도 무한대의 값을 지니도록 로짓변환 실시 오즈 Odds : 사건의 실패확률에 대한 성공확률의 비. 0~무한대 사이의 값을 지님 로그 오즈 : 오즈에 로그함수를 적용한 것. -무한대 ~ +무한대의 값. 로짓변환 : 범주형 반응변수를 로그 오즈로 변환하는 것 시그모이드 함수(확률 계산..
01 회귀분석 1. 회귀분석 개념 ▶ 하나 혹은 그 이상의 독립변수가 종속변수에 미치는 영향 추정해 식으로 표현할 수 있는 통계 기법 ▶ 변수 사이 인과관계 밝히고, 모형 적합해 관심있는 변수 예측 or 추론하기 위해 사용 ▶ 적합한 데이터 형태 : 계량형 자료. but 독립변수는 명목척도로 측정된 범주형 자료 가능(더미변수로 변환) ▶ 변수 : 설명, 독립, 예측 변수 / 반응, 종속, 결과 변수 ▶ 가정 독립, 종속변수 간의 선형성 오차의 등분산성 : 오차 분산은 독립변수의 값과 무관하게 일정해야 함 오차의 정규성 : 오차 분포가 정규분포 만족해야 함. 대각방향으로 직선의 형태 오차의 독립성 : 더빈 왓슨 검정 실시. 해당 통계량이 2에 가까울수록 자기상관이 없음(0에 가까우면 양의 상관관계) 오차 ..
01 분석 모형 구축 1. 데이터 모델 구축 기법 ▶ 통계분석 : 전형적 데이터 모델 구축 기법으로 회귀분석, 로지스틱 회귀분석, 판별분석, 주성분 분석이 있음 회귀분석 : 종속변수에 대한 독립변수의 선형 함수관계로부터 새로운 값에 대해 종속변수의 값을 예측. 특정 예측변인이 결과변인에 미치는 인과성을 밝히는 데도 사용 가능 로지스틱 회귀분석 : 설명변수가 주어졌을 때, 목표변수가 특정 그룹에 속할 확률이 로지스틱 함수 형태를 따르는 것을 활용해 개별 관측값이 어느 집단에 분류될지 예측 판별분석 : 종속변인이 둘 혹은 그 이상의 그룹으로 이루어졌을 때, 복수의 독립변인으로 집단 관측값을 판별 또는 예측 주성분분석 : 여러 변수 있을 때, 상관관계 높은 변수의 선형결합으로 만들어진 주성분이라는 새로운 변수..
1장. 데이터 전처리 1. 파생변수 vs. 요약변수 파생변수 특정 의미 갖는 작위적 정의에 의한 변수로 특정 조건 만족하는지의 여부 혹은 특정 함수 활용해 사용자가 값을 마들어 의미 부여한 변수 매우 주관적 변수 → 논리적 타당성 갖춰야 함 요약변수 많은 모델에서 공통적으로 많이 사용 재활용성 높다 다양한 모델 개발해야하는 경우, 효율적으로 사용 가능 수집된 정보를 분석에 맞게 종합한 변수 합계, 횟수와 같이 간단한 구조이므로 자동화해 상황에 맞게 또는 일반적인 자동화 프로그램으로 구축 가능 5. 결측값 처리하는 방법 Complete Analysis : 불완전 자료 모두 삭제 후 완전한 관측치만으로 자료 분석. 부분적 관측자료 사용하므로 통계적 추론의 타당성 문제가 있다 단순확률대치법 : 평균대치법에서 ..