01 회귀분석 1. 회귀분석 개념 ▶ 하나 혹은 그 이상의 독립변수가 종속변수에 미치는 영향 추정해 식으로 표현할 수 있는 통계 기법 ▶ 변수 사이 인과관계 밝히고, 모형 적합해 관심있는 변수 예측 or 추론하기 위해 사용 ▶ 적합한 데이터 형태 : 계량형 자료. but 독립변수는 명목척도로 측정된 범주형 자료 가능(더미변수로 변환) ▶ 변수 : 설명, 독립, 예측 변수 / 반응, 종속, 결과 변수 ▶ 가정 독립, 종속변수 간의 선형성 오차의 등분산성 : 오차 분산은 독립변수의 값과 무관하게 일정해야 함 오차의 정규성 : 오차 분포가 정규분포 만족해야 함. 대각방향으로 직선의 형태 오차의 독립성 : 더빈 왓슨 검정 실시. 해당 통계량이 2에 가까울수록 자기상관이 없음(0에 가까우면 양의 상관관계) 오차 ..
01 분석 모형 구축 1. 데이터 모델 구축 기법 ▶ 통계분석 : 전형적 데이터 모델 구축 기법으로 회귀분석, 로지스틱 회귀분석, 판별분석, 주성분 분석이 있음 회귀분석 : 종속변수에 대한 독립변수의 선형 함수관계로부터 새로운 값에 대해 종속변수의 값을 예측. 특정 예측변인이 결과변인에 미치는 인과성을 밝히는 데도 사용 가능 로지스틱 회귀분석 : 설명변수가 주어졌을 때, 목표변수가 특정 그룹에 속할 확률이 로지스틱 함수 형태를 따르는 것을 활용해 개별 관측값이 어느 집단에 분류될지 예측 판별분석 : 종속변인이 둘 혹은 그 이상의 그룹으로 이루어졌을 때, 복수의 독립변인으로 집단 관측값을 판별 또는 예측 주성분분석 : 여러 변수 있을 때, 상관관계 높은 변수의 선형결합으로 만들어진 주성분이라는 새로운 변수..
1장. 데이터 전처리 1. 파생변수 vs. 요약변수 파생변수 특정 의미 갖는 작위적 정의에 의한 변수로 특정 조건 만족하는지의 여부 혹은 특정 함수 활용해 사용자가 값을 마들어 의미 부여한 변수 매우 주관적 변수 → 논리적 타당성 갖춰야 함 요약변수 많은 모델에서 공통적으로 많이 사용 재활용성 높다 다양한 모델 개발해야하는 경우, 효율적으로 사용 가능 수집된 정보를 분석에 맞게 종합한 변수 합계, 횟수와 같이 간단한 구조이므로 자동화해 상황에 맞게 또는 일반적인 자동화 프로그램으로 구축 가능 5. 결측값 처리하는 방법 Complete Analysis : 불완전 자료 모두 삭제 후 완전한 관측치만으로 자료 분석. 부분적 관측자료 사용하므로 통계적 추론의 타당성 문제가 있다 단순확률대치법 : 평균대치법에서 ..
1장. 빅데이터의 이해 1. 데이터 - 관념적이고 추상적인 개념(과거) → 기술적이고 사실적인 의미 - 추론과 추정의 근거를 이루는 사실 - 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것 6. DIKW - 데이터 : 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실, 존재 형식 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 자료 - 정보 : 데이터 가공 및 상관관계 간 이해를 통해 패턴 인식하고 그 의미 부여한 것, 지식 도출하기 위한 재료 - 지식 : 데이터 통해 도출된 다양한 정보를 구조화해 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것, 상호 연결된 정보 패턴 이해해 이를 토대로 예측한 결과물 - 지혜 : 근본 ..
01 기술통계 1. 표본추출 ▶ 용어 - 모집단 : 조사하려는 대상 전체 - 표본 : 조사하기 위해 뽑은 모집단의 원소 - 모수 parameter : 표본관측으로 구하려는 정보 - 표집틀 : 표본추출 시 필요한 모집단의 구성 요소와 추출 단계별 표본추출단위가 게재된 목록 ▶ 표본추출 과정 : 모집단 결정 - 표집틀 선정 - 표본추출 방법 결정 - 표본크기 결정 - 표본추출 ▶ 표본추출 방법 : 확률 표본추출 ↔ 비확률 표본추출 ▶ 확률 표본추출 probability sampling - 단순랜덤추출법 : N개 모집단에서 n개 표본 무작위로 추출하는 방법 - 계통추출법 : 표본을 k개씩 n개 구간으로 나누고, 해당 구간의 특정 위치에 있는 원소 추출 - 집략추출법 : 모집단이 복수의 집단으로 구성됐을 때, ..
01 데이터 탐색 기초 1. 데이터 탐색 개요 ▶ 탐색적 데이터 분석 : 특이점이나 의미 있는 사실 도출해 분석의 최종 목적 달성하는 과정. 데이터의 구조적 관게 파악하기 위한 방법의 통칭(by Jonh Tukey) ▶ 탐색적 자료분석 ↔ 확증적 자료 분석 : EDA로 데이터를 깊게 이해한 후 보다 정교한 모형 개발 ▶ EDA의 4가지 주제 - 저항성 강조 : 저항성(훼손된 데이터가 있을 때 영향을 덜 받는 것) - 잔차 Residual의 해석 : 잔차(개별 관측값이 주요 경향으로 얼마나 떨어졌는지 나타내는 지표. 이상치) - 데이터의 재표현 : 해석에 도움이 되도록 로데이터의 척도를 변환하는 것. (ex. 로그 변환, 제곱근 변환 등) - 데이터의 현시성 presentation : 데이터 시각화 2. ..
01 데이터 전처리 1. 데이터 전처리의 필요성 ▶ 데이터의 질 : 다양성 + 형태 ▶ 알고리즘이 우수해도 데이터가 쓰레기하면? GIGO 2. 데이터 전처리 유형 ▶ 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환(정규화, 표준화) 3. 데이터 정제 ▶ 데이터 오류 : 노이즈, 결측치 등 ▶ 결측치 처리 - 결측치 : 값이 누락되어 존재하지 않는 값. NA, 99999, NULL등으로 표시 됨 - 유형 1. 완전 무작위 결측(MCAR) : 다른 변수들과 관련없이 랜덤하게 발생한 결측치 2. 무작위 결측(MAR) : 가장 흔함. 결측치가 다른 변수의 영향을 받으나 해당 변수의 비관측값과는 무관한 것 3. 비무작위 결측(NMAR) : 상기의 두 경우가 아닌 것. 결측 자체에 어떤 의미가 있음을 암시 ..
01 데이터 수집 및 전환 1. 데이터 수집 및 전환 ▶ 빅데이터 수집 기법 : Log Aggregator, 크롤링, 스크래핑(자동으로 웹사이트의 특정 정보 추출), Open API, RSS등 ① 정형 데이터 - ETL(Extract Transform Load) : 데이터 웨어하우스와 데이터 마트로 데이터를 보내기 위해 활용하는 추출, 변환, 적재 프로세스 - FTP(File Transfer Protocol) - API(실시간 데이터 수신) ② 반정형 - 로그 수집기(scribe - 페이스북, Chukwa 등) ③ 비정형 - 크롤링, 스크래피(Python으로 만들어짐), 아파치 카프카(스트리밍 데이터 처리), RSS, Open API - 크롤링 = 스파이더링, 가장 흔함. 데이터 위치의 분류 작업이 주목..
01 분석 방안 수립 1. 데이터 분석 기획의 방향 ▶ 데이터 사이언티스트는 분석 기획을 수행할 수 있도록 '수학&과학', '도메인 지식', 'IT'에 대한 역량을 갖춰야 함 ▶ 분석 유형 분석 주제의 유형 분석의 대상(What) O X 분석의 방법(How) O 최적화 Optimization 통찰 Insight X 솔루션 Solution 발견 Discovery ▶ 목표시점별 분석 기획 방안 1. 과제중심적 접근 : 목적 - 당면 과제 신속 해결 / 문제 해결 2. 장기적 마스터 플랜 : 목적 - 자소적 분석 내재화 / 문제 정의 ▶ 분석 기획 시 고려사항 1. 가용 데이터 : 데이터 확보는 필수! 2. 적절한 유즈 케이스 : 유즈 케이스는, 여러 변수 고려한 사용자 경로를 테스트한 것 3. 낮은 실행 장..
빅데이터 분석기사 필기(데이터 에듀) 문제집을 요약정리한 블로그를 참고해 정리하였습니다. 01 빅데이터 개요 및 활용 1. 데이터의 이해 ▶ Data, 1646년 영국 문헌에 첫 등장. 라틴어 dare(주다)의 과거 분사형 ▶ 객체로서의 가치 + 다른 객체화 관계에서 숨은 가치 ▶ 데이터 유형 1. 정성적 : 비정형 데이터 2. 정량적 : 정형 데이터 ▶ 지식경영 : 기업의 생존과 성장은 인적 자원의 지식에 있다는 인식에서 비록(by Peter Drucker) 1. 핵심 이슈 : 암묵지와 형식지의 상호작용 2. 암묵지 : 숨은 지식 - 학습과 경험으로 몸에 익은 지식이라 개개인은 이해해도 타인에게 공유 어렵 3. 내면화된 지식을 조직의 지식으로 공통화 4. 형식지 : 형상화된 지식 - 구체적 형태가 있어..