사전 점수 결과 연속으로 3주씩 공부하고 시험보려니까 많이 힘들더라구요ㅎㅎ 그래도 이렇게 좋은 결과 볼 수 있어서 보람차더라구요!! 체감 상 빅분기 필기가.. 1, 2, 4과목은 그나마 문제은행식으로 나와서 아 비벼볼만 하겠구나 해서 걱정은 크게 안했는데 3과목이 진자..기출 문제들이 비슷한 문제가 하나도 없었어요.. 그래서 3과목 과락만 면하자 + 나머지를 전체 평균 60점 넘을 수 있게 맞자 라는 마음으로 임했습니당... 운좋게 턱걸이보다 조금 위인 안전빵 아닌 안전빵 점수 맞았네요ㅎㅎ 실기는 지금 하는 바쁜게 끝나면 천천히 마음의 여유를 가지고..준비해 볼 것 같습니다! 공부 방법 및 기간 기본 배경 : 수학과(통계 기초 개념 앎) + SQL 초중급? + ADsP, SQLD가지고 있음 문제집 : 데..
01 딥러닝의 개요 딥러닝 : 인공신경망에 기반한 머신러닝의 한 갈래. 점진적으로 의미있는 표현 배우는데 강점. 데이터로부터 표현을 학습하는 새로운 방식 딥러닝에 잘 맞는 데이터는 비정형 데이터. 인지와 관련된 문제를 잘 해결하는 것으로 알려짐 음성, 이미지 인식과 자연어 처리, 헬스케어 등 다양한 분야에서 활용 딥러닝 알고리즘은 인공신경망부터 시작 → 심층 신경망 기법으로 발전 심층 신경망 방법론 심층 신경망 DNN 합성곱 신경망 CNN 순환 신경망 RNN 생성적 적대 신경망 GAN RBM 등 02 인공신경망 Artificial Neural Network 1. ANN의 개요 신경망 : 뇌 피질 영역에는 수많은 뉴런이 시냅스로 층층이 연결돼 있음. 인간 뇌는 100억 개 뉴런과 6조 개 시냅스의 결합체 ..
01 분류분석 1. 로지스틱 회귀분석 ▶ 반응변수(종속변수)가 범주형일 때 사용하는 회귀분석 모형. 만응변수가 특정 그룹에 속할 확률은 0~1로 예측. 예측 확률에 따라 가능성 높은 그룹으로 분류하는 지도학습 알고리즘 ▶ 원리 반응변수 Y가 범주형일 때, 일반적 선형회귀모형으로는 값을 바로 추정할 수 없음. Y는 0과 1로 구성된 이진형 반응변수이나, 우변의 식은 무한대의 값을 가지기 때문 로지스틱 회귀분석에서는 범주형 변수 Y도 무한대의 값을 지니도록 로짓변환 실시 오즈 Odds : 사건의 실패확률에 대한 성공확률의 비. 0~무한대 사이의 값을 지님 로그 오즈 : 오즈에 로그함수를 적용한 것. -무한대 ~ +무한대의 값. 로짓변환 : 범주형 반응변수를 로그 오즈로 변환하는 것 시그모이드 함수(확률 계산..
01 회귀분석 1. 회귀분석 개념 ▶ 하나 혹은 그 이상의 독립변수가 종속변수에 미치는 영향 추정해 식으로 표현할 수 있는 통계 기법 ▶ 변수 사이 인과관계 밝히고, 모형 적합해 관심있는 변수 예측 or 추론하기 위해 사용 ▶ 적합한 데이터 형태 : 계량형 자료. but 독립변수는 명목척도로 측정된 범주형 자료 가능(더미변수로 변환) ▶ 변수 : 설명, 독립, 예측 변수 / 반응, 종속, 결과 변수 ▶ 가정 독립, 종속변수 간의 선형성 오차의 등분산성 : 오차 분산은 독립변수의 값과 무관하게 일정해야 함 오차의 정규성 : 오차 분포가 정규분포 만족해야 함. 대각방향으로 직선의 형태 오차의 독립성 : 더빈 왓슨 검정 실시. 해당 통계량이 2에 가까울수록 자기상관이 없음(0에 가까우면 양의 상관관계) 오차 ..
01 분석 모형 구축 1. 데이터 모델 구축 기법 ▶ 통계분석 : 전형적 데이터 모델 구축 기법으로 회귀분석, 로지스틱 회귀분석, 판별분석, 주성분 분석이 있음 회귀분석 : 종속변수에 대한 독립변수의 선형 함수관계로부터 새로운 값에 대해 종속변수의 값을 예측. 특정 예측변인이 결과변인에 미치는 인과성을 밝히는 데도 사용 가능 로지스틱 회귀분석 : 설명변수가 주어졌을 때, 목표변수가 특정 그룹에 속할 확률이 로지스틱 함수 형태를 따르는 것을 활용해 개별 관측값이 어느 집단에 분류될지 예측 판별분석 : 종속변인이 둘 혹은 그 이상의 그룹으로 이루어졌을 때, 복수의 독립변인으로 집단 관측값을 판별 또는 예측 주성분분석 : 여러 변수 있을 때, 상관관계 높은 변수의 선형결합으로 만들어진 주성분이라는 새로운 변수..
1장. 데이터 전처리 1. 파생변수 vs. 요약변수 파생변수 특정 의미 갖는 작위적 정의에 의한 변수로 특정 조건 만족하는지의 여부 혹은 특정 함수 활용해 사용자가 값을 마들어 의미 부여한 변수 매우 주관적 변수 → 논리적 타당성 갖춰야 함 요약변수 많은 모델에서 공통적으로 많이 사용 재활용성 높다 다양한 모델 개발해야하는 경우, 효율적으로 사용 가능 수집된 정보를 분석에 맞게 종합한 변수 합계, 횟수와 같이 간단한 구조이므로 자동화해 상황에 맞게 또는 일반적인 자동화 프로그램으로 구축 가능 5. 결측값 처리하는 방법 Complete Analysis : 불완전 자료 모두 삭제 후 완전한 관측치만으로 자료 분석. 부분적 관측자료 사용하므로 통계적 추론의 타당성 문제가 있다 단순확률대치법 : 평균대치법에서 ..
1장. 빅데이터의 이해 1. 데이터 - 관념적이고 추상적인 개념(과거) → 기술적이고 사실적인 의미 - 추론과 추정의 근거를 이루는 사실 - 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것 6. DIKW - 데이터 : 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실, 존재 형식 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 자료 - 정보 : 데이터 가공 및 상관관계 간 이해를 통해 패턴 인식하고 그 의미 부여한 것, 지식 도출하기 위한 재료 - 지식 : 데이터 통해 도출된 다양한 정보를 구조화해 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것, 상호 연결된 정보 패턴 이해해 이를 토대로 예측한 결과물 - 지혜 : 근본 ..
01 기술통계 1. 표본추출 ▶ 용어 - 모집단 : 조사하려는 대상 전체 - 표본 : 조사하기 위해 뽑은 모집단의 원소 - 모수 parameter : 표본관측으로 구하려는 정보 - 표집틀 : 표본추출 시 필요한 모집단의 구성 요소와 추출 단계별 표본추출단위가 게재된 목록 ▶ 표본추출 과정 : 모집단 결정 - 표집틀 선정 - 표본추출 방법 결정 - 표본크기 결정 - 표본추출 ▶ 표본추출 방법 : 확률 표본추출 ↔ 비확률 표본추출 ▶ 확률 표본추출 probability sampling - 단순랜덤추출법 : N개 모집단에서 n개 표본 무작위로 추출하는 방법 - 계통추출법 : 표본을 k개씩 n개 구간으로 나누고, 해당 구간의 특정 위치에 있는 원소 추출 - 집략추출법 : 모집단이 복수의 집단으로 구성됐을 때, ..
01 데이터 탐색 기초 1. 데이터 탐색 개요 ▶ 탐색적 데이터 분석 : 특이점이나 의미 있는 사실 도출해 분석의 최종 목적 달성하는 과정. 데이터의 구조적 관게 파악하기 위한 방법의 통칭(by Jonh Tukey) ▶ 탐색적 자료분석 ↔ 확증적 자료 분석 : EDA로 데이터를 깊게 이해한 후 보다 정교한 모형 개발 ▶ EDA의 4가지 주제 - 저항성 강조 : 저항성(훼손된 데이터가 있을 때 영향을 덜 받는 것) - 잔차 Residual의 해석 : 잔차(개별 관측값이 주요 경향으로 얼마나 떨어졌는지 나타내는 지표. 이상치) - 데이터의 재표현 : 해석에 도움이 되도록 로데이터의 척도를 변환하는 것. (ex. 로그 변환, 제곱근 변환 등) - 데이터의 현시성 presentation : 데이터 시각화 2. ..