728x90
반응형
머신러닝 종류
1. Supervised Learning (지도학습)
- 학습 데이터 안에 입력값에 대한 출력값이 함께 제시됨
- 출력값이 수치형인 회귀와 범주형인 분류 문제로 나누어 짐
2. Unsupervised Learning (비지도 학습)
- 학습 데이터 안에 출력값이 없음
- 적절한 군집을 찾거나, 변수의 복잡성을 낮추기 위한 차원 축소 등이 비지도 학습에 포함됨
일반적인 Machine Learning Steps
- Collect data
- Prepare data : 사용 가능한 상태로 준비
- Split data : 학습용과 평가용 세트로 분리
- Train a model : 이력 데이터의 일부를 활용하여 알고리즘이 데이터 내의 패턴을 잘 찾아 주는지 확인
- Test and validate a model : 학습 후 모델의 성능을 평가용 데이터 세트로 확인하여 예측 성능을 파악
- Deploy a model : 모델을 의사결정 시 시스템에 탑재/적용
- Iterate : 새로운 데이터를 확보하고 점증적으로 모델을 개선
Feature Engineering
- 원시 데이터를 다루고 있는 문제를 더 잘 표현할 수 있는 특징으로 변환하는 과정
- 결과적으로, 보지 못한 새 데이터에 대해서도 좋은 예측 결과를 얻을 수 있는 feature 찾기
Feature Engineeriing이 중요한 이유
- More flexibility
- Simple models
- Better results
Feature
- 대상 문제에 유용하거나 의미 있는 특징
- Feature의 중요도를 객관적으로 측정할 수 있고 그 크기에 따라 모델에 포함하거나 제외할 수 있음
- 상관 계수 ( 데이터 간의 선형성)
- 회귀 계수와 p-value
- 의사결정 나무의 Feature Importance
- Feature ↑ -> 차원 ↑ -> 복잡해짐
방법
- Feature Selection ( 의미없는 데이터는 버린다와 같은 의미)
- Feature Extraction(자동화)
- Feature Construction(수작업)
- Feature Learning(비지도 학습) - 정규화(Regularization)
Underfitting
- 모델의 적합도
- 입력 변수가 증가하면 모델 복잡도 증가
- 출력 변수의 가능한 class가 늘어나면 모델 복잡도 증가
- 입력 변수와 출력 변수 간의 관계가 비선형적이면 모델 복잡도 증가 - 개념
- 주어진 입력 데이터에 비하여 모델의 복잡도가 너무 낮아 입력 데이터로부터 충분히 학습하지 못하는 상황(모델이 너무 단순해서 정답을 잘 못 맞추는 것) - 대응
- 학습시간을 늘린다
- 더 복잡한 모델을 구성한다
- 모델에 추가 feature를 도입한다
- Regularization을 사용하지 않거나 영향을 줄인다
- 모델을 다시 구축한다
Overfitting
- 개념
- 주어진 입력 데이터에 비하여 모델의 복잡도가 너무 높아 입력 데이터의 잡음까지 fitting하는 경향을 보이고 일반화에 실패하는 성향 - 대응
- 학습을 더 일찍 멈추게 한다
- 모델의 복잡도를 낮춘다
- 일부 feature를 제거한다
- Regularization을 활용한다
728x90
반응형
'Data Science' 카테고리의 다른 글
선형회귀분석(Linear Regression) (0) | 2025.01.19 |
---|---|
모델평가기법 (0) | 2025.01.19 |
데이터 전처리3 (0) | 2025.01.18 |
데이터 전처리2 (0) | 2025.01.18 |
데이터 전처리1 (0) | 2025.01.18 |