머신러닝

728x90

머신러닝 종류
1. Supervised Learning (지도학습)
- 학습 데이터 안에 입력값에 대한 출력값이 함께 제시됨
- 출력값이 수치형인 회귀와 범주형인 분류 문제로 나누어 짐

2. Unsupervised Learning (비지도 학습)
- 학습 데이터 안에 출력값이 없음
- 적절한 군집을 찾거나, 변수의 복잡성을 낮추기 위한 차원 축소 등이 비지도 학습에 포함됨

일반적인 Machine Learning Steps

Collect data
Prepare data : 사용 가능한 상태로 준비
Split data : 학습용과 평가용 세트로 분리
Train a model : 이력 데이터의 일부를 활용하여 알고리즘이 데이터 내의 패턴을 잘 찾아 주는지 확인
Test and validate a model : 학습 후 모델의 성능을 평가용 데이터 세트로 확인하여 예측 성능을 파악
Deploy a model : 모델을 의사결정 시 시스템에 탑재/적용
Iterate : 새로운 데이터를 확보하고 점증적으로 모델을 개선

Feature Engineering

- 원시 데이터를 다루고 있는 문제를 더 잘 표현할 수 있는 특징으로 변환하는 과정
- 결과적으로, 보지 못한 새 데이터에 대해서도 좋은 예측 결과를 얻을 수 있는 feature 찾기

Feature Engineeriing이 중요한 이유
- More flexibility
- Simple models
- Better results

Feature
- 대상 문제에 유용하거나 의미 있는 특징
- Feature의 중요도를 객관적으로 측정할 수 있고 그 크기에 따라 모델에 포함하거나 제외할 수 있음
- 상관 계수 ( 데이터 간의 선형성)
- 회귀 계수와 p-value
- 의사결정 나무의 Feature Importance
- Feature ↑ -> 차원 ↑ -> 복잡해짐

방법

Feature Selection ( 의미없는 데이터는 버린다와 같은 의미)
Feature Extraction(자동화)
- Feature Construction(수작업)
- Feature Learning(비지도 학습)
정규화(Regularization)

Underfitting

모델의 적합도
- 입력 변수가 증가하면 모델 복잡도 증가
- 출력 변수의 가능한 class가 늘어나면 모델 복잡도 증가
- 입력 변수와 출력 변수 간의 관계가 비선형적이면 모델 복잡도 증가
개념
- 주어진 입력 데이터에 비하여 모델의 복잡도가 너무 낮아 입력 데이터로부터 충분히 학습하지 못하는 상황(모델이 너무 단순해서 정답을 잘 못 맞추는 것)
대응
- 학습시간을 늘린다
- 더 복잡한 모델을 구성한다
- 모델에 추가 feature를 도입한다
- Regularization을 사용하지 않거나 영향을 줄인다
- 모델을 다시 구축한다

Overfitting

개념
- 주어진 입력 데이터에 비하여 모델의 복잡도가 너무 높아 입력 데이터의 잡음까지 fitting하는 경향을 보이고 일반화에 실패하는 성향
대응
- 학습을 더 일찍 멈추게 한다
- 모델의 복잡도를 낮춘다
- 일부 feature를 제거한다
- Regularization을 활용한다

728x90

저작자표시 변경금지 (새창열림)

'Data Science' 카테고리의 다른 글

선형회귀분석(Linear Regression) (0)	2025.01.19
모델평가기법 (0)	2025.01.19
데이터 전처리3 (0)	2025.01.18
데이터 전처리2 (0)	2025.01.18
데이터 전처리1 (0)	2025.01.18

Doromi

머신러닝

Feature Engineering

Underfitting

Overfitting

'Data Science' 카테고리의 다른 글

티스토리툴바

머신러닝

Feature Engineering

Underfitting

Overfitting

'Data Science' 카테고리의 다른 글

관련글

티스토리툴바