예상문제 오답 정리
3. SQL 집계함수 중 어떠한 데이터의 타입에도 사용이 가능한 것은?
COUNT(문자형, 수치형)
5. 데이터에 대한 설명
- 양질의 데이터를 확보하지 못하면 잘못된 분석 결과 얻음
- 창의적인 데이터 매시업(Mashup = 재조합)은 기존 풀기 어려웠던 문제 해결에 도움
- 반정형 데이터
: 데이터 내부에 메타 데이터, 스키마 갖고 있으며, 일반적으로 파일형태로 저장
: 연산 불가능
: 데이터 수집 난이도 중간
: API 형태로 제공 → 데이터처리 기술(파싱) 요구됨
ex) XML, HTML, JSON, 로그형태(웹로그, 센서 데이터)
- 공공부문에서 개방하고 있는 대표적인 데이터는 교통, 물가, 의료 데이터
6. 개인에게 내재된 경험 → 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정은?
표출화 : 형식지 요소 중 하나
9. 글로벌 기업의 빅데이터 활용사례
- 구글 : 실시간 자동 번역 시스템을 통한 의사소통의 불편 해소
- Netflix : 이용자의 콘텐츠 기호 파악해 새로운 영화 추천해주는 Cinematch 시스템 운영
- 월마트 : 소셜 미디어 통해 고객 소비 패턴 분석하는 월마트랩(Wallmart Labs) 운영
- 자라 : 일일 판매량을 실시간 데이터 분석으로 상품 수요 예측
13. 산업별 분석 애플리케이션에서 분석 사례
산업 | 일차원적 분석 애플리케이션 |
헬스케어 | 약품 거래, 예비 진단, 질병 관리 |
병원 | 가격 책정, 고객 로열티, 수익 관리 |
에너지 | 트레이딩, 공급/수요 예측 |
커뮤니케이션 | 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리 |
모든 사업 | 성과 관리 |
14. 기업내부 데이터베이스
- CRM
: 고객과 관련된 내외부 자료를 분석, 통합해 고객 중심 자원을 극대화
: 고객을 세부적으로 분류해 효과적이고 효율적인 마케팅 전략 개발
=> 단순한 정보의 수집에서 탈피, 분석 중심의 시스템 구축 지향
- SCM
: 외부 공급업체와의 정보시스템 통합으로 시간과 비용 최적화
: 부품의 설계, 제조, 유통 등의 공정 포함
20. 빅데이터 현상이 출현하게 된 배경
: 고객데이터의 축적과 거대 데이터의 활용이 늘어남으로 필요한 기술 아키텍쳐 및 통계 도구들의 발전, 모바일 혁명 등의 관련 기술의 발달
: 의료정보 등 공공데이터의 개방 가속화 X
22. 빅데이터의 기능
- 산업혁명의 석탄, 철 : 생산성 상승 → 산업 전반에 혁명적 변화
- 21세기의 원유 : 필요 정보 제공 → 생산성 up, 새로운 산업
- 렌즈 : 데이터 발전에 영향
- 플랫폼 : 공동 활용 목적으로 구축된 유무형의 구조물, API
23-2. 빅데이터가 만들어 내는 변화
데이터의 규모가 증가함에 따라 사소한 몇개의 오류 데이터는 분석결과에 영향을 미치지 않기 때문에 데이터 세트에 포함해 분석해도 상관없는 경우多
25. 데이터의 가치 측정이 어려운 이유
- 데이터 활용 방식 : 재사용, 재조합(Mashup), 다목적용 개발 → 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음
- 새로운 가치 창출
- 분석 기술 발전
*빅데이터 전문 인력 증가로 다양한 곳에서 빅데이터가 활용 X
26. 사생활 침해를 막기 위해 개인정보를 무작위 처리하는 등 데이터가 본래 목적 외에 가공되고 처리되는 것을 방지하는 기술은?
난수화 : 고객의 과거 구매 기록이나 나이, 수입, 건강정보와 같은 데이터가 해독이 불가능한 난수화를 통해 변경된 채로 기업에 전송
28. 유전자 알고리즘
: 택배차량을 어떻게 배치하는 것이 가장 비용 효율적인가?
: 점진적으로 진화시켜 나가는 방법
30. 핀테크
: 기술을 이용해 금융 서비스를 창출하거나 기존의 서비스를 재검토해 변화시키고자 하는 움직임
: 신용평가(Credit Rating)는 핀테크 분야에서 빅데이터 활용이 활발하게 이루어지고 있다.
*신용평가: 투자자 보호를 위해 금융상품 및 신용공여 등에 대해 그 원리금이 상환될 가능성과 기업 법인 및 간접투자기구 등의 신용도를 평가하는 행위
31. 딥러닝과 관련 있는 분석 기법
: CNN, LSTM, Autoencoder
*SVM은 분류분석 기법 중 하나로 딥러닝과 관련 없음
32. 딥러닝을 활용하기 위해 다양한 오픈소스가 개발되어 제공되고 있다.
Caffe, Tensorflow, Theano는 딥러닝 소프트웨어
*Anaconda는 Python 프로그램의 머신러닝 기능을 강화해 주는 소프트웨어
35. 빅데이터 시대의 위기와 통제
- 빅데이터 분석은 일어난 일에 대한 데이터에 의존하므로 예측의 정확도는 높지만 항상 맞을 수는 없어 데이터 오용의 피해가 발생할 수 있다.
- 빅데이터가 발생시키는 문제를 중간자 입장에서 중재하며 해결해 주는 알고리즈미스트도 새로운 직업으로 부상하게 될 것이다.
- 책임 원칙 훼손 : 민주주의 국가의 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻고 있다.
38. 데이터 사이언스의 구성요소
- Analytics : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
- IT : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
- 비즈니스 분석 : 커뮤티케이션, 프레젠테이션, 스토리텔링, 시각화 등
44. 정보 : 데이터 가공 및 상관관계 간 이해를 통해 패턴 인식하고 그 의미 부여한 것, 지식을 도출하기 위한 재료
46. Data Lake : 지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문. 다시 말해 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트인 데이터 레이크를 기업들이 구현하는 것은 2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫 해가 될 전망이다.
49. 플랫폼
- 페북 : 소셜 그래프 자산을 외부 개발자들에게 공개, 서드파티 개발자들이 페북 위에서 작동하는 앱 만들기 시작
- 하둡 : 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다. 아마존은 S3와 BC2환경을 제공함으로써 플랫폼을 위한 클라우스 서비스를 최초로 실현
헷갈리는 용어 정리
범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 숨김
총계처리 : 데이터의 총합 값을 보임으로서 개별 데이터의 값이 보이지 않도록 함
*특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지의 결과임으로 주의
암묵지 : 개인에게 축적된 내면화된 지식 → 조직의 지식으로 공통화
형식지 : 언어, 기호, 숫자로 표출화된 지식 → 개인의 지식으로 연결화
데이터 무결성
: 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러가지 제한 두어 정확성을 보증하는 것
- 개체 무결성
- 참조 무결성
- 범위 무결성
KMS Knowledge Management System
: 유통분야, 지식관리시스템, 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근방식
위기요인에 따른 통제 방안
사생활 침해 → 책임제
책임 원칙 훼손 → 결과 기반 책임 원칙 고수
데이터 오용 → 알고리즘 접근 허용, 알고리즈미스트
인문학 열풍을 가져오게 한 외부환경 요인
컨버전스 → 디버전스
생산 → 서비스
생산 → 시장창조
DW, DB 특
DB | DW |
통합 | 통합 |
저장 | 시계열성 |
공용 | 주제지향적 |
변화 | 비소멸(비휘발) |
정량적 데이터
- 수치, 도형, 기호
- 정형화된 데이터
- 객관적 내용