본문 바로가기
Data Science

로지스틱 회귀분석

by Doromi 2025. 1. 21.
728x90
반응형

Classification 개요

  • Supervised learning의 일종으로, 입력 데이터에 존재하는 Feature값들과 Label값의 class 간의 관계를 학습하여 새로 관측된 데이터의 Class를 예측하는 문제
  • 다음과 같은 영역에서 활용
    • 이메일 spam 분류
    • 고객 이탈 방지
      • 어느 고객이 떠나갈 것인가? -> 떠날 위기에 있는 고객들 대상으로 고객 유치 마케팅 수행
      • 이동통신회사, FedEx,체이스 은행,위키피디아 등등
    • HR 직원 행동 예측
      • 이직,퇴사,입사 등의 직원의 행동을 예측 -> 적절한 인력 관리에 활용
      • HP,CIA,LinkedIn,국내 생명보험사 등등
    • 종속변수가 수치형 -> Regression
    • 종속변수가 범주형 -> Classification
  • 로지스틱 회귀 변환 과정
  • 승산(Odds)

로짓함수(Logit)
-∞ ~ ∞  

역함수
-0~1

 

로지스틱 회귀(Logistic Regression)

  1. 이진 분류
    - Label값으로 0/1, Y/N 등과 같이 두 가지 Class 만 가능
  2. 프로세스 개요
    - 독립변수들의 선형 결합과 종속변수의 class 간의 확률적 관계를 학습
    - gradient descent로 최적화된 Coefficients와 intercept를 계산

 

비용함수(Loss function)


- Maximize Likelihood / Minimize Cross-entropy

XOR 문제


- 선 하나로 분류할 수 없는 그래프(Multi layer)

 

임계값

- T 기본 임계값은 0.5
- P(Y=1)>=임계값이면 1로 분류
- P(Y=1)<임계값이면 0으로 분류
- 임계값을 낮추면 민감도(recall)가 높아져 오분류가 높아지더라도  Y=1인 경우를 최대한 분류
- 임계값을 높이면 Precision이 높아지게 되어 알파 오류를 최소화하는 경향이 있음
★ 임계값이 낮아지면 recall이 올라가고, 임계값을 높이면 Precision이 올라간다.

 

Regression과 비교

  • 선형 회귀
    • 종속변수는 Y값 자체
    • 회귀계수는 해당 독립변수 값이 1단위 증가할 때 종속변수 Y의 변화량
    • 예측오차의 최소화
  • 로지스틱 회귀
    • 종속변수는 Logit확률로부터 도출한 class값
    • 회귀계수는 해당 독립변수 값이 1단위 증가할 때 log(odds) 변화량
    • cross entropy의 초소화 혹은 log likelihood의 최대화

 


ROC(Receiver Operating Characteristic) and AUC(Area Under the Curve)

- AUC 면적이 크면 클수록 성능이 좋아진다.

728x90
반응형

'Data Science' 카테고리의 다른 글

선형회귀분석(Linear Regression)  (0) 2025.01.19
모델평가기법  (0) 2025.01.19
머신러닝  (0) 2025.01.18
데이터 전처리3  (0) 2025.01.18
데이터 전처리2  (0) 2025.01.18