본문 바로가기
Data Science

머신러닝

by Doromi 2025. 1. 18.
728x90
반응형

머신러닝 종류
1. Supervised Learning (지도학습)
- 학습 데이터 안에 입력값에 대한 출력값이 함께 제시됨
- 출력값이 수치형인 회귀와 범주형인 분류 문제로 나누어 짐

2. Unsupervised Learning (비지도 학습)
- 학습 데이터 안에 출력값이 없음
- 적절한 군집을 찾거나, 변수의 복잡성을 낮추기 위한 차원 축소 등이 비지도 학습에 포함됨

 

일반적인 Machine Learning Steps

  1. Collect data
  2. Prepare data : 사용 가능한 상태로 준비
  3. Split data : 학습용과 평가용 세트로 분리
  4. Train a model : 이력 데이터의 일부를 활용하여 알고리즘이 데이터 내의 패턴을 잘 찾아 주는지 확인
  5. Test and validate a model : 학습 후 모델의 성능을 평가용 데이터 세트로 확인하여 예측 성능을 파악
  6. Deploy a model : 모델을 의사결정 시 시스템에 탑재/적용
  7. Iterate : 새로운 데이터를 확보하고 점증적으로 모델을 개선

 

 

Feature Engineering


- 원시 데이터를 다루고 있는 문제를 더 잘 표현할 수 있는 특징으로 변환하는 과정
- 결과적으로, 보지 못한 새 데이터에 대해서도 좋은 예측 결과를 얻을 수 있는 feature 찾기

Feature Engineeriing이 중요한 이유
- More flexibility
- Simple models
- Better results

Feature
- 대상 문제에 유용하거나 의미 있는 특징
- Feature의 중요도를 객관적으로 측정할 수 있고 그 크기에 따라 모델에 포함하거나 제외할 수 있음
   - 상관 계수 ( 데이터 간의 선형성)
   - 회귀 계수와 p-value
   - 의사결정 나무의 Feature Importance
- Feature ↑ -> 차원  ↑ -> 복잡해짐

방법

  1. Feature Selection ( 의미없는 데이터는 버린다와 같은 의미)
  2. Feature Extraction(자동화)
    - Feature Construction(수작업)
    - Feature Learning(비지도 학습)
  3. 정규화(Regularization)

 

Underfitting

  • 모델의 적합도
    - 입력 변수가 증가하면 모델 복잡도 증가
    - 출력 변수의 가능한 class가 늘어나면 모델 복잡도 증가
    - 입력 변수와 출력 변수 간의 관계가 비선형적이면 모델 복잡도 증가
  • 개념
    - 주어진 입력 데이터에 비하여 모델의 복잡도가 너무 낮아 입력 데이터로부터 충분히 학습하지 못하는 상황(모델이 너무 단순해서 정답을 잘 못 맞추는 것)
  • 대응
    - 학습시간을 늘린다
    - 더 복잡한 모델을 구성한다
    - 모델에 추가 feature를 도입한다
    - Regularization을 사용하지 않거나 영향을 줄인다
    - 모델을 다시 구축한다

Overfitting

  • 개념
    - 주어진 입력 데이터에 비하여 모델의 복잡도가 너무 높아 입력 데이터의 잡음까지 fitting하는 경향을 보이고 일반화에 실패하는 성향
  • 대응
    - 학습을 더 일찍 멈추게 한다
    - 모델의 복잡도를 낮춘다
    - 일부 feature를 제거한다
    - Regularization을 활용한다
728x90
반응형

'Data Science' 카테고리의 다른 글

선형회귀분석(Linear Regression)  (0) 2025.01.19
모델평가기법  (0) 2025.01.19
데이터 전처리3  (0) 2025.01.18
데이터 전처리2  (0) 2025.01.18
데이터 전처리1  (0) 2025.01.18