본문 바로가기
728x90
반응형

분류 전체보기301

로지스틱 회귀분석 Classification 개요Supervised learning의 일종으로, 입력 데이터에 존재하는 Feature값들과 Label값의 class 간의 관계를 학습하여 새로 관측된 데이터의 Class를 예측하는 문제다음과 같은 영역에서 활용이메일 spam 분류고객 이탈 방지어느 고객이 떠나갈 것인가? -> 떠날 위기에 있는 고객들 대상으로 고객 유치 마케팅 수행이동통신회사, FedEx,체이스 은행,위키피디아 등등HR 직원 행동 예측이직,퇴사,입사 등의 직원의 행동을 예측 -> 적절한 인력 관리에 활용HP,CIA,LinkedIn,국내 생명보험사 등등종속변수가 수치형 -> Regression종속변수가 범주형 -> Classification로지스틱 회귀 변환 과정승산(Odds)로짓함수(Logit) -∞ ~ ∞.. 2025. 1. 21.
선형회귀분석(Linear Regression) Regression한 변수를 다른 변수/ 변수들의 함수 관계로 표현하는 것선형회귀분석(Linear Regression)- 독립변수 x로 종속변수 y를 설명할 때, 이 관계가 선형 관계인 경우- 독립변수 x가 여러 개일 수 있음 선형회귀 계수의 추정오차 제곱의합이 최소화가 되는 회귀 계수들을 어떻게 효과적으로 찾을 수 있을까?경사하강법- 전체 데이터 세트에 대해 모든 가능한 value의 손실 함수를 계산하는 것은 비효율적- 임의의 시작점에서 손실 곡선의 기울기를 계산- 기울기가 감소하는 방향으로 이동 후 다시 손실 곡선의 기울기 계산- 일정한 보폭, 혹은 점차 감소하는 보폭으로 이동과 기울기 계산을 반복다중공선성(Multicollinearity)개념- 독립변수들 간에 강한 상관관계가 존재하는 상태- 다중공.. 2025. 1. 19.
모델평가기법 모델 평가 지표 회귀 모델 - 예측 대상이 연속형 수치 데이터인 경우MSE(Mean Squared Error)RMSE(Root Mean Squared Error)MAE(Mean Absolute Error)MAPE(Mean Absolute Percentage Error)분류 모델 - 예측 대상이 범주형 데이터인 경우Precision(정확도)Positive 라고 예측한 것 중 실제 정답이 Positive인 것의 비율   Recall(재현률)정답의 Positive 데이터 중 Positive로 예측된 데이터의 비율 Accurancy(정확도)전체 중 실제 정답인 것의 확율 F1 ScorePrecision 과 Recall의 조화 평균(harmonic mean).  최대 1의 값을 가질 수 있음.▷ F1 Score는.. 2025. 1. 19.
머신러닝 머신러닝 종류1. Supervised Learning (지도학습)- 학습 데이터 안에 입력값에 대한 출력값이 함께 제시됨- 출력값이 수치형인 회귀와 범주형인 분류 문제로 나누어 짐2. Unsupervised Learning (비지도 학습)- 학습 데이터 안에 출력값이 없음- 적절한 군집을 찾거나, 변수의 복잡성을 낮추기 위한 차원 축소 등이 비지도 학습에 포함됨 일반적인 Machine Learning StepsCollect dataPrepare data : 사용 가능한 상태로 준비Split data : 학습용과 평가용 세트로 분리Train a model : 이력 데이터의 일부를 활용하여 알고리즘이 데이터 내의 패턴을 잘 찾아 주는지 확인Test and validate a model : 학습 후 모델의 성.. 2025. 1. 18.
데이터 전처리3 모양 변환1. Pivot : 행,열 별 '요약'된 값으로 정렬해서 분석하고자 할 때 사용2. Unpivot : 열 형태로 되어 있는 것을 행 형태로 바꿀 때 사용 파생변수 생성1. 파생변수- 이미 수집된 변수를 활용해 새로운 변수를 생성하는 경우- 분석자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수로 '주관적'일 수 있으며 논리적 타당성을 갖추어 개발해야함- (예) 인기 매장, 구매 다양성2. 요약변수- 원 데이터를 분석 Needs에 맞게 종합한 변수- 데이터의 수준을 달리하여 종합하는 경우가 많음- (예) 총 구매 금액, 매장별 방문 횟수 정규화(Normalization)- 데이터의 속성값이 정해진 구간 내에 들도록 하는 기법- Scale이 다른 여러 변수에 대해 Scal.. 2025. 1. 18.
데이터 전처리2 결합: 테이블 구조를 가진 데이터 간에 공통 요소 기준으로 둘 혹은 그 이상의 데이터 테이블을 합하여 하나의 데이터로 만드는 것축소 Filtering : 필요한 데이터만 추출하는 것Sampling : 데이터의 양이 너무 많아 분석의 어려움이 있거나 시간 관점에서 현실적이지 않을 때 분석에 적정하게 조절차원 축소 : 차원의 저주(데이터의 차원이 늘어날수록 공간의 크기가 증가하고 데이터의 밀도는 희박해지기 때문에 데이터의 수가 기하급수적으로 증가하게 됨) 표본추출(Sampling): 표본의 요건 (모집단을 대표해야 함)- 표본의 크기가 클수록, 모집단에서 골고루 추출될수록 표본의 대표성은 커짐- 무작위로 추출하는 것은 바로 이런 편향성을 배제하기 위함표본 오차(Sampling error)- 모집단을 모두 조.. 2025. 1. 18.
데이터 전처리1 데이터 전처리: 데이터 분석 작업 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총칭하는 개념Original Data -> Target Data -> Preprocessed Data -> Patterns -> Knowledge데이터 품질이 높은 경우에도 전처리 필요성은 존재- 구조적 형태가 분석 목적에 적합하지 않은 경우- 사용하는 툴, 기법에서 요구하는 데이터 형태- 데이터가 너무 많은 경우데이터 품질을 낮추는 주요 원인- 불완전 : 데이터의 필드가 비어 있는 경우- 잡음 : 데이터에 오류가 포함된 경우- 모순 : 데이터 간 정합성,일관성이 결여된 경우데이터 전처리의 주요 기법- 정제(Data cleansing)- 통합(Data integration)- 축소(Data reduction)- 변환(Da.. 2025. 1. 18.
728x90
반응형