티스토리 뷰

◼︎ 빅데이터

: 기존의 데이터 처리 응용에서는 다루기 어려운 크고 복잡한 데이터셋에 대하여 분석하고 정보를 찾아내는 분야

 

◼︎ 데이터 분석(Data Analysis)

: 데이터의 패턴을 파악해 의미를 도출하고 미래를 예측하여 유리한 의사결정을 하기 위한 일련의 과정

- 데이터(Data): 문자, 숫자, 소리, 영상 등의 형태로 된 의미 단위

- 모델링(modeling): 관찰한 데이터에 있는 패턴이나 관계를 수학적인 표현으로 재해석하여 수식으로 표현하는 작업

 

 

◼︎ 데이터 분석 프로세스

분석 목표 설정  ->  데이터 수집  ->  데이터 가공  ->  데이터 분석(모델링)  ->  데이터 시각화

 

 

◼︎ 데이터 유형

형태에 따라 분류

- 정형 데이터: 미리 정해진 형식에 따라 구조화되어 있는 데이터

RDB(관계형데이터베이스)
: key와 value들의 관계를 테이블 형태로 나타낸 데이터베이스. 자료 간의 연결이 강한, 유연한 데이터베이스이다.
- 원하는 정보를 찾기 위해 Query라고 하는 관계형 질의로 특정 조건을 주고, 그에 만족하는 데이터를 찾아냄
   전용 관리 시스템) Oracle, mySQL, Sybase, MPP DB
CSV (Comma Spread Values)
: 쉼표로 구분된 값


- 비정형 데이터: 정형 데이터와는 반대로 정해진 규칙이 없는 데이터

NoSQL(Not Only SQL)
: SQL만을 사용하지 않는 데이터베이스 관리 시스템(DBMS)
- 형식에 크게 제한 받지 않는다. 크기를 확장하기 쉽다는 장점이 있다.
  해당 시스템) MongoDB, Cassamdra, HBase, Redise

 

- 반정형 데이터: 완전한 정형이 아닌 약한 정형 데이터

 

내용에 따라 분류 

- 질적 자료: 원칙적으로 숫자로 표현될 수 없는 자료로 범주로 표현. 순서나 순위의 유무에 따라 명목형과 순서형으로 분류

- 양적 자료: 숫자로 된 정확한 값이 표함된 명확한 수치로 표현. 값에 따라 연속형과 이산형으로 분류

범주형 변수
(질적 자료)
명목형
Nominal
순서 없음, 값을 구분하기 위한 변수(성별, 혈액형, 국가, 직업)
서열형
Ordinal
순서 있음, 순위형(학점, 제품 만족도)
수치형 변수
(양적 자료)
구간형
Interval
이산형
셀 수는 있지만 특정 구간이 존재하는 변수, 사칙연산 (년도, 발생횟수, 자녀수)
비율형
Ratio
연속형
연속적인 값을 가지며 차이와 비율에 의미가 있는 변수 (소득,, 몸무게)

 

◼︎ 데이터 가공 = 데이터 전처리 = 데이터 정제

"데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다."
- Kaggle 창립자 안토니 골드블룸

https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=123b5f906f63

 

Feature Engineering

- 전처리 종류: 데이터 클리닝(cleaning),  데이터 통합(integration) , 데이터 변환(transformation), 데이터 축소(reduction), 데이터 이산화(discretization)

- 데이터 오류: 결측치(Missing Data), 이상치(Outliers), 중복(Duplicate), 잡음(Noise) 등

 

 

◼︎ 데이터 분석과 알고리즘

기계학습 알고리즘

 

> 회귀 분석(regression)

: 독립변수와 종속변수의 상호 연관성 정도를 파악하기 위한 분석 기법

  상관관계(correlation)분석 == 상관관계 분석, 인과관계(causation)분석 == 회귀분석

 

  • 종속변수(target): 연구자가 의도적으로 변경하는 변수. 수학에서 x값을 의미함
  • 독립변수(feature): 독립변수의 값이 변함에 따라 달라지는 수량을 나타내는 변수. y값
종속변수가 1개, 독립 변수가 1개-> 단변량 단순 선형 회귀 모델 (Univariate simple linear regression model)
종속변수가 1개, 독립변수가 2개 이상-> 단변량 다중 선형 회귀 모델 (Univariate Multiple linear regression model)
종속변수가 2개 이상, 독립변수가 1개-> 다변량 단순 선형 회귀 모델 (Multivariate simple linear regression model)
종속변수가 2개 이상, 독립 변수가 2개 이상-> 다변량 다중 선형 회귀 분석 (Multivariate multiple linear regression model)
지도 학습
- 학습을 하기 위한 훈련 데이터에 입력과 출력을 같이 제공
- 문제(입력)에 대한 답(출력, 결과값)을 아는 상태에서 학습하는 방식
- 입력: 예측 변수, 속성, 특징
- 출력: 반응 변수, 목표 변수, 클래스, 레이블

 

> 분류(classification)

: 주어진 데이터를 클래스 별로 구별해 내는 과정으로 다양한 분류 알고리즘을 통해 데이터와 데이터의 레이블 값을 학습시키고 모델을 생성한다. 데이터가 주어졌을 때 학습된 모델을 통해 어느 범주에 속한 데이터인지 판단하고 예측하게 된다.

KNN(K-Nearest Neighbors)
: 가장 가까운 K개 이웃들 값을 참조하여 분류하는 알고리즘
Logistic Regression
: 시그모이드 함수(S자 함수)를 사용하여 참(True, 1)과 거짓(False, 0)을 분류

시그모이드 함수
- x값이 커지면 y값은 1에 근사하게 되고 x값이 작아지면 y값은 0에 근사하게 되어 S자 형태의 그래프가 됨
- 두 개의 값을 분류하는 이진 분류에 많이 사용
- 방정식


선형 회귀와 로지스틱 회귀

- 선형 회귀: 실제값과 예측값의 오차에 기반한 지표
- 로지스틱 회귀: 이진 분류 결과를 평가하기 위해 오차 행렬에 기반한 성능 지표. 정밀도, 재현율, F1 스코어, ROC_AUC 사용

 

Decision Tree
- 기계학습에서 지도학습의 알고리즘으로 분류 또는 회귀 분석 목적으로 사용
- 의사결정 규칙을 나무구조 표현을 통해 분류와 에측을 수행하는 분석 방법
- 분류 또는 예측 과정이 나무구조로 표현되어 비교적 쉽게 이해

 

 

Random Forest
- Decision Tree의 확장 버전.
- 다수의 decision tree를 생성하여 각 decision tree에서 분류한 결과를 취합하여 다수결로 분류하는 방법

 

 

> 군집화(Clustering)

: 비슷한 샘플을 하나의 클러스터로 모으는 것

K-means
: K개의 군집(Cluster)으로 묶는(Clusting) 알고리즘

 n개의 d-차원 데이터 오브젝트 (x1, x2, …, xn) 집합이 주어졌을 때, k-평균 알고리즘은 n개의 데이터 오브젝트들을 각 집합 내 오브젝트 간 응집도를 최대로 하는 개의 집합 S = {S1, S2, …, Sk} 으로 분할한다. 다시 말해, μi가 집합 Si의 중심점이라 할때 각 집합별
중심점~집합 내 오브젝트간 거리의 제곱합을 최소로 하는 집합 S를 찾는 것이 이 알고리즘의 목표다.

k-means 정의 및 장단점

 

 

> 이상치 탐지(Anomaly Detection)

통계 분석
- 평균: 데이터 집합의 총합을 해당 데이터의 개수로 나눈 값으로, 주로 데이터 집합의 전반적인 경향을 파악하는 데 사용
- 표준편차: 데이터의 분산 정도를 나타내는 측정값으로, 평균과의 차이로 측정. 데이터가 평균에 가까울 수록 표준편차는 작아지고 멀어질수록 표준편차는 커진다. 평균에서 표준편차의 2~3배 이상 떨어진 데이터를 이상치로 간주한다.
- z-score
각 데이터 포인트가 평균으로 부터 얼마나 떨어져 있는지를 표준화하여 측정한 값.

 

 

 

 


인공지능과 빅데이터를 활용해야 하는 아이디어를 생각해야 하다보니 작년에 학부에서 공부한 빅데이터 강의 자료와 마이크로소프트에서 제공해주는 빅데이터 강의를 참고해서 관련 내용을 정리해보았다.

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함