해당 내용은 떠도는 Colab파일과 블로그 내용 그리고 민트책을 합쳐 정리했습니다.
SQL Structured Query Language
- 데이터 베이스 구축 시 사용하는 언어(특정 DB 시스템에 한정되지 않고 널리 사용됨)
→ 미국 국립 표준 협회가 SQL을 표준으로 제정
- 단순한 질의 기능 뿐 아니라 완전한 데이터의 정의와 조작 기능 갖춤
→ SQL 언어는 데이터 정의 언어(DDL), 데이터 조작 언어(DML)로 나뉨
- 테이블 단위로 연산 수행
SELECT NAME, GENDER, SALARY # 데이터 추출 명령어
FROM CUSTOMERS # 데이터 지정
WHERE AGE BETWEEN 20 AND 39; # 조건식
데이터 무결성 Data Integrity
: DB내 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터를 변경할 때 여러가지 제한을 두어 데이터의 정확성을 보증하는 것
- 개체 무결성
- 참조 무결성
- 범위 무결성
데이터 유형
- 정형 데이터 : 형태(고정된 필드)가 있으며 연산 가능. 주로 관계형 데이터베이스(RDBMS)에 저장. 수집 난이도 낮고 처리 쉬움
ex) csv, 스프레드 시트, Demand Forecasts(수요예측, 판매량 등을 바탕으로 나온 자료), CRM Transaction Data, ERM Data 등
- 반정형 데이터 : 형태(스키마, 메타데이터)가 있으며 연산 불가. 주로 파일로 저장. 보통 API형태로 제공되어 데이터 처리 기술(파싱)이 요구됨
ex) XML, HTML, 로그형태(웹로그, 센서데이터), Competitor Pricing 등
- 비정형 데이터 : 형태가 없고 연산 불가. 주로 NoSQL에 저장. 수집 데이터 처리가 힘듦
ex) 소셜 데이터, 영상, 이미지, 음성, 텍스트, Email Records, Mobile Location 등
딥러닝 Deep Learning
: 기계학습 기법 중 다층 인공신경망 기법
: 음성 인식, 이미지 식별 또는 예측 등 사람의 작업을 대신 수행하도록 컴퓨터를 학습시키는 일종의 머신 러닝
: 데이터가 사전 정의된 방식을 통해 실행되도록 구성하는 다른 기술솨 달리, 딥러닝은 데이터에 대한 기본 파라미터를 설정하고 컴퓨터가 여러 처리 계층을 이용해 패턴을 인식함으로써 스스로 학습하도록 훈련시키는 기술
ex) RNN(Recurrent Neural Network, 순환신경망), LSTM(Long Short-Term Memory), Autoencoder 등