728x90
반응형
데이터 전처리
: 데이터 분석 작업 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총칭하는 개념
Original Data -> Target Data -> Preprocessed Data -> Patterns -> Knowledge
데이터 품질이 높은 경우에도 전처리 필요성은 존재
- 구조적 형태가 분석 목적에 적합하지 않은 경우
- 사용하는 툴, 기법에서 요구하는 데이터 형태
- 데이터가 너무 많은 경우
데이터 품질을 낮추는 주요 원인
- 불완전 : 데이터의 필드가 비어 있는 경우
- 잡음 : 데이터에 오류가 포함된 경우
- 모순 : 데이터 간 정합성,일관성이 결여된 경우
데이터 전처리의 주요 기법
- 정제(Data cleansing)
- 통합(Data integration)
- 축소(Data reduction)
- 변환(Data transformation)
데이터 정제
- 결측값(Missing Value)
: 존재하지 않고 비어 있는 상태, DB에서의 Null값인 경우
처리 방법
- 수작업으로 채워 넣음
- 특정값 사용
- 평균값 사용
- 가장 가능성이 높은 값 사용(회귀 분석, 보간법 등)
- 해당 데이터 행을 모두 제거 - 이상값(Outlier)
: 대표적인 잡음 요소, 이상값으로 판단되는 값에 의해 경향성 훼손이 발생
탐지 방법
- 시각화(산점도, Box plot, Histogram)
- 수치적 탐지 방법(Box plot - IQR 기준)
- 확률이나 분포를 이용하는 방법(Variance, Likelihood)
- 기계학습 기법 활용(Nearest-neighbor, Density, Clustering - 모두 베이스에 "거리"개념을 깔고 감)
처리 기준
- 상한과 하한값을 벗어나는 값을 이상값으로 보고 제거 가능(Turkey, Carling) - 잡음
: 데이터에 오류가 포함된 경우
탐지 방법
- 중복 : 동일한 데이터가 다른 이름으로 존재할 때 또는 동일한 이름의 데이터가 있을 때
- 속성값 차이 : 동일한 내용을 다른 형태로 저장하고 있을 때
- 상관분석 : 상관계수가 1에 가깝다면 중복데이터가 아닌지 확인
- 데이터 라벨의 차이 : 나이가 30살 차이가 나는 것 vs 통장잔고가 30원 차이가 나는 것
처리방법
- 구간화(Binning 또는 Bucketization)
- 회귀(Regression)
- 군집화(Clustering)
728x90
반응형
'Data Science' 카테고리의 다른 글
데이터 전처리3 (0) | 2025.01.18 |
---|---|
데이터 전처리2 (0) | 2025.01.18 |
선형회귀분석_통계파트 (0) | 2025.01.17 |
선형 회귀분석 (0) | 2025.01.14 |
상관분석 (0) | 2025.01.13 |