본문 바로가기
Data Science

데이터 전처리3

by Doromi 2025. 1. 18.
728x90
반응형

모양 변환

1. Pivot : 행,열 별 '요약'된 값으로 정렬해서 분석하고자 할 때 사용

2. Unpivot : 열 형태로 되어 있는 것을 행 형태로 바꿀 때 사용

 

파생변수 생성

1. 파생변수
- 이미 수집된 변수를 활용해 새로운 변수를 생성하는 경우
- 분석자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수로 '주관적'일 수 있으며 논리적 타당성을 갖추어 개발해야함
- (예) 인기 매장, 구매 다양성

2. 요약변수
- 원 데이터를 분석 Needs에 맞게 종합한 변수
- 데이터의 수준을 달리하여 종합하는 경우가 많음
- (예) 총 구매 금액, 매장별 방문 횟수

 

정규화(Normalization)
- 데이터의 속성값이 정해진 구간 내에 들도록 하는 기법
- Scale이 다른 여러 변수에 대해 Scale을 맞춰 모든 데이터 포인트가 동일한 정도의 중요도로 비교되도록 함
- 단위 차이, 극단값 등으로 비교가 어렵거나 왜곡이 발생할 때 표준화하여 비교 가능하게 만듬

- Min-Max 변환 : 최소 0 ~ 최대 1 사이 값으로 변환
- Z-socre 변환 : 표준화 값으로 변환(표준정규분포)

 

데이터 분포의 변환
- 입력 데이터가 정규를 따르지 않는 경우, 정규분포 혹은 정규분포에 가깝게 변환하는 기법
- Positively Skewed(오른쪽 꼬리가 긴 그래프) : Sqrt(x) -> log10(x) -> 1/x
- Negatively Skewed(왼쪽 꼬리가 긴 그래프) : 로그(log)변환
- 종속변수의 증가가 독립변수의 증가보다 급격할 때, (y=x2 과 같은 지수함수) -> log 변환 시도
- 종속변수의 감소가 독립변수의 증가보다 급격할 때, square 변환 시도

 

728x90
반응형

'Data Science' 카테고리의 다른 글

모델평가기법  (0) 2025.01.19
머신러닝  (0) 2025.01.18
데이터 전처리2  (0) 2025.01.18
데이터 전처리1  (0) 2025.01.18
선형회귀분석_통계파트  (0) 2025.01.17