회귀분석의 가설 검정
검정 통계량
-F검정 : 회귀 모형의 통계적 유의성을 검정 = 기울기가 존재하느냐
-T검정 : 개별 독립변수가 종속변수에 유의한 영향을 미치는지 검정 = 각각의 종속변수x들이 독립변수 y에 어떤 영향을 미치는지
선형회귀분석의 4가지 가정
1.선형성(종속변수Y는 독립변수X에 대하여 선형적인 관계를 갖음)
- 산점도로 선형성 확인
- 상관계수 확인
- 회귀계수 베타에 대한 검정(F검정)
2.정규성 (오차가 정규성을 갖는다)
- 오차는 모두 평균이 0이고 분산이 σ² 인 정규분포다
- 정규성은 회귀식의 오차에 대해서만 요구되는 성질이며 아주 엄격하게 요구되지 않은다.
- 정규성 가정을 검토하기 위해서, 산점도/Histogram/Q-Q plot 또는 잔차에 대한 왜도(얼마나 찌그러져 있는지) 및 첨도(얼마나 뾰족한지) 검토를 통한다.
3.등분산성(오차의 퍼짐의 정도가 비슷하다)
- 분산 σ²은 모든 x에 대하여 일정한 상수다.
- 만약 등분산성 가정이 성립하지 않으면, F검정 또는 T검정 사용이 불가하며, log(y)또는 sqrt(y) 변환, 변수 추가, 비선형 모델을 사용해야 한다.
- 등분산성 가정에 대한 검토를 위해서 예측값 대 잔차 산점도을 이용하거나 잔차의 등분산성에 대한 검정을 한다.(예로White test)
4.독립성
- 독립성 가정이 성립하지 않으면, 중요한 설명변수가 누락된 경우거나 다중공선성이 존재
다중공선성은 제거하는 것이 원칙이나 성능이 좋은 경우, 제거하지 않을 수도 있다.
- y = β + βx1 + βx2 + βx3 에서 x3가 2x1과 같은 경우, x1과 x3의 관계성이 존재하게 된다. 이렇게 되면 독립성 가정이 깨진다.
선형성 이슈 - 독립변수와 종속변수가 선형관계가 아닌 경우
- 데이터 변환, 다항 회귀, 일반화 가법 모형 즉 입력데이터 형태를 바꿔버려서 선형으로 바꿔버린다.
정규성 이슈 - 오차항의 확률분포가 정규분포가 아닌 경우
- Q-Q Plot으로 확인할 수 있으며, 데이터 변환, 일반화 선형 모형(종속변수에 변환 함수를 적용 하거나 Link Function이라하며 반응 변수의 확률분포에 따라 사용하는 함수를 매핑하여 결과값 y를 바꾸는 개념)으로 대응한다.
등분산성 이슈 - 오차항의 확률분포가 등분산이 아닌경우
- 잔차 그래프를 통해 확인하며, 데이터 변환 또는 가중 선형 회귀(잔차에 가중치를 적용한 제곱값을 최소화하거나, 가중치는 해당 관측치 분산의 역수) 방법을 사용하여 대응한다.
독립성 이슈 - 오차항이 독립이 아닌 경우 or 자기상관성이 있는 경우
- 시계열 같이 순서가 정해져 있는 데이터에는 주기성이나 계절성 같은 패턴이 자주 나타나며 이런 경우 자기 상관성이 있다고 하는데 자기 회귀모델을 사용하여 대응한다.
다른 이슈가 있는 데이터일 때
- Outliers : 잔차가 대부분의 다른 데이터와 확연하게 차이가 나는 큰 값인 경우
- 히스토그램, 막대 그래프 등으로 확인
- 대응 방법:
outliers를 제거
Robust Regression, 잔차의 제곱 대신 절대값의 합이 최소가 되도록 계수를 측정하는 방식을 사용한다.( 제곱을 하는 이유에는 현미경과 같은 원리라고 생각하면 된다. 격차를 크게 보기 위한. 제곱해서 멀어보였던 값을 절대값을 써서 차이가 최소가 되도록 한다)
Quantile Regression (평균이 아닌 특정 분위값을 추정, 이분산 데이터에도 회귀분석을 적용할 수 있다)
회귀식을 구간별로 따로 따로 쓰는 방식 - 다중공선성- 독립변수 간에 강한 상관관계가 있는 경우
- 상관분석/ VIF(Variance Inflation Factor) 이용하여 확인
- 대응 방법:
Feature Engineering
Regularization
Ridge Regression(제거하지 않고 가중치를 조절)/Lasso(제거)/Elastic Net(조절하면서+제거)
PCR(Princiapl Component Regression)
PLS(Partial Least Square Regression)
선형회귀모델 평가 : 잔차 분석으로 등분산인지 아닌지 검토가능. 선형회귀분석 여부 검토 가능
- 잔차 시각화를 통한 회귀분석 가정 검토
- 가정을 대체로 만족하고 모형 적합이 잘 된 경우 ( 등분산 O)
- 등분산 가정 위배 되는 경우 (Y로 퍼져있거나 잔차가 x에 연관, 잔차가 x에 비선형적으로 연관) - 회귀모델의 유의성 검정
- F검정통계량에 대한 확률
- 회귀식이 종속변수Y의 변량을 설명하는가? - 회귀 변수의 유의성 검정
- 각 독립변수의 t 검정통계량에 대한 확률
- 해당 독립변수가 종속변수 y의 변량을 설명하는가?
선형회귀모델 평가:Goodness of fit
R² (결정계수, coefficient of determination)
- 변수 간 영향을 주는 정도 또는 인과 관계의 정도를 정량화 해서 나타낸 수치
- 추정한 선형의 모형이 주어진 자료에 대해 얼마나 적합한가를 나타냄
R² = 회귀모형에 대해 설명되는 변동(SSR)/총 변동(전체 분산 SST)
0<= R² <=1 (1에 가까울 수록 인과관계가 높다)
R² 활용 시 고려할 상항
- R² 은 적합성에 대한 "완전한" 지표가 아님
- R² 은 예측 오차에 대한 지표가 아님
- 회귀모델이 적절한데 낮은 R² 값을 갖는 경우, R² 값이 높은데 회귀모델이 적절하지 않은 경우 등도 있기 때문에 다른 평가 지표와 함께 활용하는 것이 좋음(MSE,RSME,MAE,MAPE_
회귀모형에 대한 오차 지표 (작을 수록 우수)
- MSE : Mean Squared Error
- MAE : Mean Absolute Error
- RMSE : Root Mean Squared Error
- MAPE : Mean Absolute Percentage Error
회귀모형에서 명목형 변수의 처리
: 회귀분석은 연속형 수치 자료를 독립변수와 종속변수로 사용하는 분석
-> 범주형 데이터를 수치형으로 변환(One-hot-encoding) 0과 1로 표현