728x90
반응형
Regression
한 변수를 다른 변수/ 변수들의 함수 관계로 표현하는 것
선형회귀분석(Linear Regression)
- 독립변수 x로 종속변수 y를 설명할 때, 이 관계가 선형 관계인 경우
- 독립변수 x가 여러 개일 수 있음
선형회귀 계수의 추정
오차 제곱의합이 최소화가 되는 회귀 계수들을 어떻게 효과적으로 찾을 수 있을까?
- 경사하강법
- 전체 데이터 세트에 대해 모든 가능한 value의 손실 함수를 계산하는 것은 비효율적
- 임의의 시작점에서 손실 곡선의 기울기를 계산
- 기울기가 감소하는 방향으로 이동 후 다시 손실 곡선의 기울기 계산
- 일정한 보폭, 혹은 점차 감소하는 보폭으로 이동과 기울기 계산을 반복 - 다중공선성(Multicollinearity)
- 개념
- 독립변수들 간에 강한 상관관계가 존재하는 상태
- 다중공선성이 있을 때에는 독립변수와 종속변수 간의 영향 정도를 정확히 산출하지 못하는 현상이 나타남 - 확인방법
- x 변수들 간의 산점도나 상관계수를 보아 상관성이 높은지 확인
- VIF( Variance Inflation Factor) 가 10이상인 설명(독립)변수 - 해결방법
- 다중공선선이 있는 독립변수를 제거
- 주성분 분석을 통해 추출된 서로 독립인 주성분을 사용하여 외귀분석 수행
- 개념
회귀모형에서 명목형 변수의 처리
- One-Hot Encoding
- 열(Column)에 범주형 데이터의 항목을 추가하고 값을 수치(0또는 1)로 표시하는 것 - Dummy variable(one-hot encoding이 발전된 것)
- 변수가 범주형인 경우에 사용
- 기울기 추정이 불가능해지고, 이를 보완하기 위해 1개의 항목을 제거하는 것을 Dummy화라고 함
Penalized Regression
- 기법
- Ridge와 Lasso는 다중공선성을 정규화 시키는 방법
- Ridge : 다중공선성 관계가 있는 독립변수의 가중치를 조절하는 방법 (그래프가 희미해지면)
- Lasso : 다중공선성 관계가 있는 독립변수를 삭제하는 방법 (그래프가 중간에 삭제되어 있으면)
728x90
반응형