모양 변환
1. Pivot : 행,열 별 '요약'된 값으로 정렬해서 분석하고자 할 때 사용
2. Unpivot : 열 형태로 되어 있는 것을 행 형태로 바꿀 때 사용
파생변수 생성
1. 파생변수
- 이미 수집된 변수를 활용해 새로운 변수를 생성하는 경우
- 분석자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수로 '주관적'일 수 있으며 논리적 타당성을 갖추어 개발해야함
- (예) 인기 매장, 구매 다양성
2. 요약변수
- 원 데이터를 분석 Needs에 맞게 종합한 변수
- 데이터의 수준을 달리하여 종합하는 경우가 많음
- (예) 총 구매 금액, 매장별 방문 횟수
정규화(Normalization)
- 데이터의 속성값이 정해진 구간 내에 들도록 하는 기법
- Scale이 다른 여러 변수에 대해 Scale을 맞춰 모든 데이터 포인트가 동일한 정도의 중요도로 비교되도록 함
- 단위 차이, 극단값 등으로 비교가 어렵거나 왜곡이 발생할 때 표준화하여 비교 가능하게 만듬
- Min-Max 변환 : 최소 0 ~ 최대 1 사이 값으로 변환
- Z-socre 변환 : 표준화 값으로 변환(표준정규분포)
데이터 분포의 변환
- 입력 데이터가 정규를 따르지 않는 경우, 정규분포 혹은 정규분포에 가깝게 변환하는 기법
- Positively Skewed(오른쪽 꼬리가 긴 그래프) : Sqrt(x) -> log10(x) -> 1/x
- Negatively Skewed(왼쪽 꼬리가 긴 그래프) : 로그(log)변환
- 종속변수의 증가가 독립변수의 증가보다 급격할 때, (y=x2 과 같은 지수함수) -> log 변환 시도
- 종속변수의 감소가 독립변수의 증가보다 급격할 때, square 변환 시도
'Data Science' 카테고리의 다른 글
모델평가기법 (0) | 2025.01.19 |
---|---|
머신러닝 (0) | 2025.01.18 |
데이터 전처리2 (0) | 2025.01.18 |
데이터 전처리1 (0) | 2025.01.18 |
선형회귀분석_통계파트 (0) | 2025.01.17 |