본문 바로가기
Data Science

데이터 전처리1

by Doromi 2025. 1. 18.
728x90
반응형

데이터 전처리

: 데이터 분석 작업 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총칭하는 개념

Original Data -> Target Data -> Preprocessed Data -> Patterns -> Knowledge

데이터 품질이 높은 경우에도 전처리 필요성은 존재
- 구조적 형태가 분석 목적에 적합하지 않은 경우
- 사용하는 툴, 기법에서 요구하는 데이터 형태
- 데이터가 너무 많은 경우

데이터 품질을 낮추는 주요 원인
- 불완전 : 데이터의 필드가 비어 있는 경우
- 잡음 : 데이터에 오류가 포함된 경우
- 모순 : 데이터 간 정합성,일관성이 결여된 경우

데이터 전처리의 주요 기법
- 정제(Data cleansing)
- 통합(Data integration)
- 축소(Data reduction)
- 변환(Data transformation)

 

데이터 정제

  1.  결측값(Missing Value)
    : 존재하지 않고 비어 있는 상태, DB에서의 Null값인 경우

    처리 방법
    - 수작업으로 채워 넣음
    - 특정값 사용
    - 평균값 사용
    - 가장 가능성이 높은 값 사용(회귀 분석, 보간법 등)
    - 해당 데이터 행을 모두 제거

  2. 이상값(Outlier)
    : 대표적인 잡음 요소, 이상값으로 판단되는 값에 의해 경향성 훼손이 발생

    탐지 방법
    - 시각화(산점도, Box plot, Histogram)
    - 수치적 탐지 방법(Box plot - IQR 기준)
    - 확률이나 분포를 이용하는 방법(Variance, Likelihood)
    - 기계학습 기법 활용(Nearest-neighbor, Density, Clustering - 모두 베이스에 "거리"개념을 깔고 감)

    처리 기준
    -  상한과 하한값을 벗어나는 값을 이상값으로 보고 제거 가능(Turkey, Carling)

  3. 잡음
    : 데이터에 오류가 포함된 경우

    탐지 방법
    - 중복 : 동일한 데이터가 다른 이름으로 존재할 때 또는 동일한 이름의 데이터가 있을 때
    - 속성값 차이 : 동일한 내용을 다른 형태로 저장하고 있을 때
    - 상관분석 : 상관계수가 1에 가깝다면 중복데이터가 아닌지 확인
    - 데이터 라벨의 차이 : 나이가 30살 차이가 나는 것 vs 통장잔고가 30원 차이가 나는 것

    처리방법 
    - 구간화(Binning 또는 Bucketization)
    - 회귀(Regression)
    - 군집화(Clustering)
728x90
반응형

'Data Science' 카테고리의 다른 글

데이터 전처리3  (0) 2025.01.18
데이터 전처리2  (0) 2025.01.18
선형회귀분석_통계파트  (0) 2025.01.17
선형 회귀분석  (0) 2025.01.14
상관분석  (0) 2025.01.13