본문 바로가기
Data Science

선형회귀분석(Linear Regression)

by Doromi 2025. 1. 19.
728x90
반응형

Regression

한 변수를 다른 변수/ 변수들의 함수 관계로 표현하는 것

선형회귀분석(Linear Regression)
- 독립변수 x로 종속변수 y를 설명할 때, 이 관계가 선형 관계인 경우
- 독립변수 x가 여러 개일 수 있음

 

선형회귀 계수의 추정

오차 제곱의합이 최소화가 되는 회귀 계수들을 어떻게 효과적으로 찾을 수 있을까?

  • 경사하강법
    - 전체 데이터 세트에 대해 모든 가능한 value의 손실 함수를 계산하는 것은 비효율적
    - 임의의 시작점에서 손실 곡선의 기울기를 계산
    - 기울기가 감소하는 방향으로 이동 후 다시 손실 곡선의 기울기 계산
    - 일정한 보폭, 혹은 점차 감소하는 보폭으로 이동과 기울기 계산을 반복

  • 다중공선성(Multicollinearity)
    • 개념
      - 독립변수들 간에 강한 상관관계가 존재하는 상태
      - 다중공선성이 있을 때에는 독립변수와 종속변수 간의 영향 정도를 정확히 산출하지 못하는 현상이 나타남
    • 확인방법
      - x 변수들 간의 산점도나 상관계수를 보아 상관성이 높은지 확인
      - VIF( Variance Inflation Factor) 가 10이상인 설명(독립)변수 
    • 해결방법
      - 다중공선선이 있는 독립변수를 제거
      - 주성분 분석을 통해 추출된 서로 독립인 주성분을 사용하여 외귀분석 수행

 

회귀모형에서 명목형 변수의 처리

  • One-Hot Encoding
    - 열(Column)에 범주형 데이터의 항목을 추가하고 값을 수치(0또는 1)로 표시하는 것
  • Dummy variable(one-hot encoding이 발전된 것)
    - 변수가 범주형인 경우에 사용
    - 기울기 추정이 불가능해지고, 이를 보완하기 위해 1개의 항목을 제거하는 것을 Dummy화라고 함

 

Penalized Regression

  • 기법
    - Ridge와 Lasso는 다중공선성을 정규화 시키는 방법
    - Ridge : 다중공선성 관계가 있는 독립변수의 가중치를 조절하는 방법 (그래프가 희미해지면)
    - Lasso : 다중공선성 관계가 있는 독립변수를 삭제하는 방법 (그래프가 중간에 삭제되어 있으면)

728x90
반응형

'Data Science' 카테고리의 다른 글

로지스틱 회귀분석  (0) 2025.01.21
모델평가기법  (0) 2025.01.19
머신러닝  (0) 2025.01.18
데이터 전처리3  (0) 2025.01.18
데이터 전처리2  (0) 2025.01.18